moonlight - 搜索 News

2 月 24 日消息，月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告，并宣布推出“Moonlight”：一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型（MoE）。使用了 5.7 万亿个 ...

腾讯网1 小时

月之暗面开源Moonlight：30亿/160亿参数混合专家模型

公司动态经济观察网讯 ...

4 小时on MSN

月之暗面Kimi发布Moonlight模型：参数高达30亿至160亿，性能大幅提升

近期，人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告，并随之推出了名为“Moonlight”的混合专家模型（MoE）。这款模型在Muon优化器的基础上进行了训练，拥有30亿至160亿不等 ...

4 小时

月之暗面 Kimi 开源 Moonlight：30 亿 / 160 亿参数混合专家模型

IT之家 2 月 24 日消息，月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告，并宣布推出“Moonlight”：一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型（MoE）。使用了 5.7 万亿个 token，在更低的浮点运算次数（FLOPs）下实现了更好的性能，从而提升了帕累托效率边界。

54 分钟

开源赛道太挤了！月之暗面开源新版Muon优化器

上周五，DeepSeek 刚刚官宣这周要连续开源 5 个代码库，却被月之暗面深夜截胡了。昨天，月之暗面抢先一步开源了改进版 Muon 优化器，比 AdamW 优化器计算效率提升了 2 倍。团队人员表示，原始 Muon ...

4 小时

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。

财联社 on MSN1 天

月之暗面开源MoE模型Moonlight

【月之暗面开源MoE模型Moonlight】《科创板日报》23日讯，今天（23日）凌晨，月之暗面发布最新论文《Muon is Scalable for LLM ...

5 小时

英伟达显卡制造问题、月之暗面AI模型效率翻倍，科技领域大事件一览

近期，英伟达（NVIDIA）因部分RTX 5090和5070 Ti显卡存在制造问题而备受关注。英伟达确认，一些用户报告的显卡出现了缺失渲染单元的问题，进而导致了启动驱动程序失败和电源连接器熔化的情况。全球公关总监Ben ...

腾讯网22 小时

代码论文全开源！月之暗面发布重磅技术报告：模型训练效率翻倍

月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》！推出了一个全新的优化器 Muon，并基于此训练出了 3B/16B 参数的混合专家模型 (MoE)——Moonlight。这个 Moonlight ...

22 小时

Muon优化器开源：算力需求降48%，DeepSeek助力AI训练新纪元

近日，月之暗面团队宣布其开源改进版的Muon优化器在算力需求上相较于传统优化器AdamW锐减48%。这一突破由OpenAI的技术人员提出的训练优化算法Muon演变而来，经过团队深入研究与优化，结果令人振奋。团队通过实验发现，Muon不仅在参数量最高达 ...

2 小时

DeepSeek火爆全球！成huggingface平台最受欢迎的开源大模型

近期，全球知名开源平台Hugging Face传来一则震撼消息，其联合创始人兼CEO Clement Delangue在社交媒体上公布了一项引人注目的数据：源自中国的开源大模型DeepSeek-R1，在Hugging ...

5 小时

英伟达确认RTX 5090和5070 Ti存在制造问题；月之暗面发布最新技术报告 ...

｜2025年2月24日星期一｜NO.1英伟达确认RTX5090和5070Ti存在制造问题近日，英伟达确认发售了一些缺少渲染单元的RTX5090和RTX5070TiGPU。NO.3OpenAI被曝2027年成本将高达200亿美元近日，据外媒报道，Ope ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果