作者 | 冬梅2 月 18 日,DeepSeek 和月之暗面(Moonshot AI)几乎在同一时间发布了各自最新的研究成果,巧合的是,两篇论文的主题高度一致——都聚焦于改进 Transformer ...
作者|沐风来源|AI先锋官2月24日,DeepSeek的“开源周”,开源了他们第一天的项目FlashMLA。开源地址:https://github.com/deepseek-ai/FlashMLA在DeepSeek整个技术路线中,MLA(多头潜在注意 ...
因为就大模型的实际应用而言,用户往往输入并不规则,随时来个长上下文对话或者给你传上去一个超长PDF,这就需要内核支持“动态序列”,同时还能保持高效,而这块,DeepSeek也做了大幅的优化。
根据论文介绍,DeepSeek 团队将算法创新与硬件适配优化相结合,以实现超快速长文本训练。NSA 采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,以兼顾全局上下文感知和局部精度。NSA ...
DeepSeek在AI领域的发展一直备受关注,其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...
作为AI领域的核心技术,注意力机制的发展至关重要。它将在文本生成、机器翻译、信息检索等多种应用场景中发挥关键作用。结合MoBA与NSA的研究成果,不仅为科研提供了丰富的思路和方案,也为从业者拓宽了创新路径。随着AI技术的迅猛发展,如何高效处理大规模数 ...
2月21日,阶跃星辰CEO姜大昕在生态开放日表示,公司将在3月份开源图生视频大模型。此前,阶跃星辰已经开源一款视频生成大模型以及一款语音交互大模型。截至目前,阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成能力。
杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但 K1.5 论文之前,他最后一篇论文类的研究停留在 2024 年 1 月。而梁文锋虽然作为作者出现在 DeepSeek 最重要的模型技术报告里,但这些报告的作者名录几乎相当于 ...
2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse ...
DeepSeek发布最新技术论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...
新华财经上海2月19日电 2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse ...
2月18日,DeepSeek官方在海外社交平台X发布了一篇全新的技术论文,重点介绍了一种名为NSA(Natively Sparse Attention,原生稀疏注意力)的技术。DeepSeek的创始人梁文锋也在论文署名中列为共创者之一。