2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 ...
公司动态 经济观察网讯 ...
12 小时on MSN
近期,人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告,并随之推出了名为“Moonlight”的混合专家模型(MoE)。这款模型在Muon优化器的基础上进行了训练,拥有30亿至160亿不等 ...
IT之家 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。
在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。
上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚!DeepSeek 梁文锋亲自挂名,公开新注意力架构 NSA》。
人类的悲欢并不相通。从2016年开启的人工智能元年,AI产业已经历好几轮洗牌,借着ChatGPT的东风, DeepSeek 如同鲇鱼一般搅动了整个大模型市场,同为大模型创业公司并被业界视为新贵“六小龙”的厂商们,与其相比,境遇堪称东边日出西边雨。
近期,英伟达(NVIDIA)因部分RTX 5090和5070 Ti显卡存在制造问题而备受关注。英伟达确认,一些用户报告的显卡出现了缺失渲染单元的问题,进而导致了启动驱动程序失败和电源连接器熔化的情况。全球公关总监Ben ...
近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。
Apple 智能也有了新的时间表。苹果日前宣布了 Apple 智能将于四月份支持中文在内的更多语言,也发布了支持中文 Apple 智能的 iOS 18.4 测试版。不过 Gurman 预计,国行版本的 Apple 智能将于 iOS 18.5 ...
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、DeepSeek开源周首日: ...
人类的悲欢并不相通。从2016年开启的人工智能元年,AI产业已经历好几轮洗牌,借着ChatGPT的东风, DeepSeek 如同鲇鱼一般搅动了整个大模型市场,同为大模型创业公司并被业界视为新贵“六小龙”的厂商们,与其相比,境遇堪称东边日出西边雨。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果