近日,DeepSeek在广受期待的情况下,正式开源了其首个项目FlashMLA,该项目在GitHub上线仅半小时内便获得300多颗星,显示了其在AI领域的强大吸引力。FlashMLA的核心特点是"一款面向Hopper ...
作者 | 冬梅2 月 18 日,DeepSeek 和月之暗面(Moonshot AI)几乎在同一时间发布了各自最新的研究成果,巧合的是,两篇论文的主题高度一致——都聚焦于改进 Transformer ...
作者|沐风来源|AI先锋官2月24日,DeepSeek的“开源周”,开源了他们第一天的项目FlashMLA。开源地址:https://github.com/deepseek-ai/FlashMLA在DeepSeek整个技术路线中,MLA(多头潜在注意 ...
核心理念无疑振奋人心:“FlashMLA是一款面向Hopper GPU的高效MLA解码内核,专门为可变长度序列服务场景进行优化。”简单来说,FlashMLA是帮助AI模型快速解码的利器,尤其在面对长上下文的对话时,其优势不言而喻。
DeepSeek在AI领域的发展一直备受关注,其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...
2月21日,阶跃星辰CEO姜大昕在生态开放日表示,公司将在3月份开源图生视频大模型。此前,阶跃星辰已经开源一款视频生成大模型以及一款语音交互大模型。截至目前,阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成能力。
根据论文介绍,DeepSeek 团队将算法创新与硬件适配优化相结合,以实现超快速长文本训练。NSA 采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,以兼顾全局上下文感知和局部精度。NSA ...
作者|王兆洋邮箱|[email protected]在马斯克发布了他用20万张卡训出的Grok3的同一天,两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。在这两篇论文的作者名目里,各自有一个大家熟悉的名字:梁文锋,杨植麟。
DeepSeek发布最新技术论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...
新华财经上海2月19日电 2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse ...