上下文 - 搜索 News

来自MSN3 天

DeepSeek在AI领域的发展一直备受关注，其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...

4 天

DeepSeek在论文中介绍，NSA采用动态分层稀疏策略，将粗粒度标记压缩与细粒度标记选择相结合，以保持全局上下文感知和局部精度。通过两项关键创新推进稀疏注意力设计：第一，通过算术强度平衡算法设计实现了显着的加速，并针对现代硬件进行了实现优化。第二， ...

4 天

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低 ...

实验表明，在解码64k上下文时，基于softmax架构的注意力计算占到总延迟的70%-80%。而在不影响性能的前提下，NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速。

4 天

小米松果电子获得机器翻译专利，助推AI技术新发展

2025年2月19日，金融界报道，北京小米松果电子有限公司成功取得了一项名为"篇章机器翻译方法及装置、存储介质"的专利，专利授权公告号为CN112149432B。这一专利的申请始于2020年9月，标志着小米在人工智能领域的持续探索和创新。小米松果电子成立于2014年，位于北京市，注册资本为25000万人民币，专注于零售业，但其在科技创新方面的成绩也不可忽视。

中华网5 天

《180天重启计划》冷思考女性独立后的责任与奉献

在17日的剧评文章中提到，《180天重启计划》这部电视剧探讨了女性人格独立的主题。但人格独立只是第一步，接下来应是权力与义务的共生。许多读者希望对此展开讨论。当前很多女性电影和电视剧只停留在第一步，未深入探讨第二步。例如《出走的决心》、《好东西》和 ...

中华网5 天

DeepSeek发新成果稀疏注意力机制NSA显著提升长上下文处理速度

2月18日，DeepSeek团队发布了一篇新论文，介绍了一种改进的稀疏注意力机制NSA，适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

5 天on MSN

DeepSeek推出NSA：快速进行长上下文训练和推理

快科技2月18日消息，据报道，DeepSeek团队在其新发表的论文中介绍了NSA（Native Sparse Attention），这是一种创新的稀疏注意力机制，该机制专为与现代硬件高度协同且支持本机训练而设计，旨在实现超高速的长上下文训练与推理过程 ...

5 天

DeepSeek新突破：梁文锋参与，实习生主导，NSA机制加速AI训练推理

近日，AI领域迎来了一项创新突破，DeepSeek团队发布了一篇新论文，介绍了一种名为NSA的改进稀疏注意力机制。这一机制旨在解决长上下文训练与推理中的效率问题，通过高性价比的方式在训练和推理阶段均实现了速度的显著提升。

on.cc東網5 天

DeepSeek新推NSA 用于超快速上下文训练及推理

内媒报道，DeepSeek于社交平台表示，推出NSA用于超快速的上下文长度训练和推理。DeepSeek称，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的上下文长度训练和推理。

5 天

刚刚，DeepSeek发新成果！梁文锋亲自参与，实习生挑大梁，显著加速AI ...

让人眼前一亮的是， DeepSeek创始人兼CEO梁文锋这次出现在了合著名单之中，在作者排名中位列倒数第二。这意味着他作为项目管理者，参与了一线的研究工作。另外，这篇论文的第一作者Jingyang Yuan是在实习期间完成的这项研究。

5 天

DeepSeek发布最新技术论文，梁文锋是共创之一

2月18日，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力），官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果