资讯
在此背景下,月之暗面推出了Kimi K2,这是一个拥有1.04万亿总参数、320亿激活参数的混合专家(MoE)模型。从预训练与后训练两个阶段解决智能体智能面临的核心挑战,并拓展AI能力边界。
11月27日消息,“大多数人不知道,关于Scaling Law的原始研究来自2017年的百度,而不是2020年的OpenAI。”近日一则上述内容刷爆AI圈子,引发对百度研究 ...
回顾大模型(LLM)的成功之路,是利用 Next Token Prediction 的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。而奖励模型(RM)的设计仍然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的 RM。因此,是否可以仿照 LLM 的成功之路,重新设计 RM 的训练范式呢?消除 RM 的 “打分标准”,就像消除 LLM 的 “任务形式” 一样,找到一个 脱离于 ...
邱锡鹏提出Context Scaling,以情境理解突破暗知识,迈向AGI。 真正的智能在于理解任务的模糊与复杂,Context Scaling 是通向 AGI 的关键一步。 2024 年底 ...
要事解读① RL for LLMs,强化学习的 Scaling Law 才刚刚起步? 日期:4 月 11 日 预训练模型 x 强化学习=智能? 1、近期、来自 DeepSeek、清华大学的研究者 ...
如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又没有找到新的性价比更合算的Scaling Law,也不是说模型效果就提不上去了,大家仍然可以回归预 ...
POLAR的发布无疑将对开发者生态产生深远影响。随着POLAR能够在不依赖大量标注数据的情况下进行有效训练,开发者将有机会在更广泛的应用场景中实现AI的落地。这一进展不仅推动了奖励模型的可扩展性,同时也为未来的AI系统提供了更为灵活和高效的训练方案。
当前,大模型在 Next Token Prediction 和 Test-time Scaling 两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的短板。
具身智能的 Scaling Law AI 科技评论:听下来您应该算是一个妥妥的“真机派”? 解浚源: 对,我和高老师在这方面的观点比较相似,即不太相信仿真。
研究团队指出,当前 RLHF 方法无法实现像预训练那样的 scaling 效率,未来的研究应集中于提升奖励建模的准确性、减少训练过程中的噪声干扰,并 ...
它如何让老游戏焕发新生? 无损缩放,告别模糊. 传统缩放会因插值算法导致画面模糊,而Lossless Scaling通过整数倍缩放技术,将游戏窗口无边框放大 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果