polaris - 搜索 News

资讯

Qwen3-4B的模型预训练上下文长度仅有32K，而RL阶段Polaris将最大训练长度设定为52K。但实际达到最大序列长度的训练样本比例不足10%，意味着真正使用长文本进行训练的样本非常有限。

7 天

在人工智能领域，一个重要的突破正在悄然改变游戏规则。字节跳动旗下的Seed团队与香港大学和复旦大学的研究人员携手推出了POLARIS，一个创新的强化学习训练方案。这一方案通过独特的ScalingRL策略，成功将小型模型的数学推理能力提升至与大型模型相当的水平，开辟了AI小模型优化的新天地。

7 天

字节跳动推出POLARIS强化学习法，4B模型数学推理能力超越235B大模型！

在人工智能领域的最新突破中，字节跳动旗下的Seed团队携手香港大学和复旦大学，推出了一项名为POLARIS的创新强化学习训练方案。这一方案通过独特的ScalingRL策略，成功将小型模型的数学推理能力提升至与大型模型相当的水平，为AI小模型的优化开辟了一条崭新道路。

新浪网5 天

富特尼推出Polaris北极星47年单一麦芽威士忌，慈善 ...

富特尼推出Polaris北极星,一款极为稀有的47年单一麦芽威士忌,仅通过“Distillers One of One”全球慈善拍卖会独家亮相。灵感源自富特尼遥远而壮丽的 ...

7 天on MSN

字节跳动Seed团队开源POLARIS强化学习法，4B小模型数学推理媲美235B大模型

在人工智能领域的一项最新突破中，字节跳动旗下的Seed团队携手香港大学及复旦大学，联合推出了一项名为POLARIS的创新强化学习训练方案。该方案通过独特的Scaling RL策略，成功将小型模型的数学推理能力提升至与大型模型相当的水平，为AI小模型的优化开辟了一条崭新道路。实验数据表明，利用POLARIS训练的Qwen3-4B开源模型，在AIME25和AIME24数学测试中分别斩获了79.4%和8 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果