trainable - 搜索 News

作者 | 冬梅2 月 18 日，DeepSeek 和月之暗面（Moonshot AI）几乎在同一时间发布了各自最新的研究成果，巧合的是，两篇论文的主题高度一致——都聚焦于改进 Transformer ...

作者｜沐风来源｜AI先锋官2月24日，DeepSeek的“开源周”，开源了他们第一天的项目FlashMLA。开源地址：https://github.com/deepseek-ai/FlashMLA在DeepSeek整个技术路线中，MLA（多头潜在注意 ...

因为就大模型的实际应用而言，用户往往输入并不规则，随时来个长上下文对话或者给你传上去一个超长PDF，这就需要内核支持“动态序列”，同时还能保持高效，而这块，DeepSeek也做了大幅的优化。

7 小时

根据论文介绍，DeepSeek 团队将算法创新与硬件适配优化相结合，以实现超快速长文本训练。NSA 采用动态分层稀疏策略，将粗粒度的标记压缩与细粒度的标记选择相结合，以兼顾全局上下文感知和局部精度。NSA ...

来自MSN4 天

DeepSeek在AI领域的发展一直备受关注，其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...

5 天

作为AI领域的核心技术，注意力机制的发展至关重要。它将在文本生成、机器翻译、信息检索等多种应用场景中发挥关键作用。结合MoBA与NSA的研究成果，不仅为科研提供了丰富的思路和方案，也为从业者拓宽了创新路径。随着AI技术的迅猛发展，如何高效处理大规模数 ...

1 天

2月21日，阶跃星辰CEO姜大昕在生态开放日表示，公司将在3月份开源图生视频大模型。此前，阶跃星辰已经开源一款视频生成大模型以及一款语音交互大模型。截至目前，阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型，覆盖语音识别、语音生成、多模态理解、图像及视频生成能力。

2 天

杨植麟最初创办月之暗面受到关注的一个重要原因，是他的论文影响力和引用量，但 K1.5 论文之前，他最后一篇论文类的研究停留在 2024 年 1 月。而梁文锋虽然作为作者出现在 DeepSeek 最重要的模型技术报告里，但这些报告的作者名录几乎相当于 ...

2月18日，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse ...

DeepSeek发布最新技术论文《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...

5 天

新华财经上海2月19日电 2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse ...

5 天

2月18日，DeepSeek官方在海外社交平台X发布了一篇全新的技术论文，重点介绍了一种名为NSA（Natively Sparse Attention，原生稀疏注意力）的技术。DeepSeek的创始人梁文锋也在论文署名中列为共创者之一。

一些您可能无法访问的结果已被隐去。