trainable - 搜索 News

1 天

近日，DeepSeek在广受期待的情况下，正式开源了其首个项目FlashMLA，该项目在GitHub上线仅半小时内便获得300多颗星，显示了其在AI领域的强大吸引力。FlashMLA的核心特点是"一款面向Hopper ...

作者 | 冬梅2 月 18 日，DeepSeek 和月之暗面（Moonshot AI）几乎在同一时间发布了各自最新的研究成果，巧合的是，两篇论文的主题高度一致——都聚焦于改进 Transformer ...

作者｜沐风来源｜AI先锋官2月24日，DeepSeek的“开源周”，开源了他们第一天的项目FlashMLA。开源地址：https://github.com/deepseek-ai/FlashMLA在DeepSeek整个技术路线中，MLA（多头潜在注意 ...

1 天

核心理念无疑振奋人心：“FlashMLA是一款面向Hopper GPU的高效MLA解码内核，专门为可变长度序列服务场景进行优化。”简单来说，FlashMLA是帮助AI模型快速解码的利器，尤其在面对长上下文的对话时，其优势不言而喻。

来自MSN5 天

DeepSeek在AI领域的发展一直备受关注，其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...

2 天

2月21日，阶跃星辰CEO姜大昕在生态开放日表示，公司将在3月份开源图生视频大模型。此前，阶跃星辰已经开源一款视频生成大模型以及一款语音交互大模型。截至目前，阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型，覆盖语音识别、语音生成、多模态理解、图像及视频生成能力。

14 小时

根据论文介绍，DeepSeek 团队将算法创新与硬件适配优化相结合，以实现超快速长文本训练。NSA 采用动态分层稀疏策略，将粗粒度的标记压缩与细粒度的标记选择相结合，以兼顾全局上下文感知和局部精度。NSA ...

作者｜王兆洋邮箱｜[email protected]在马斯克发布了他用20万张卡训出的Grok3的同一天，两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。在这两篇论文的作者名目里，各自有一个大家熟悉的名字：梁文锋，杨植麟。

DeepSeek发布最新技术论文《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...

6 天

新华财经上海2月19日电 2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse ...

一些您可能无法访问的结果已被隐去。