字节跳动 Seed 最新强化学习配方 POLARIS 开源 4B 模型数学推理接近 235B 表现

AI 资讯
25 年 7 月 17 日
编辑

小强

近日，字节跳动 Seed 团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的 ScalingRL 策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。

实验结果显示，采用 POLARIS 训练的 40 亿参数开源模型 Qwen3-4B，在 AIME25 和 AIME24 数学测试中分别取得了 79.4% 和 81.2% 的高准确率，性能超越部分更大规模的闭源模型。尤为突出的是，POLARIS-4B 模型的轻量化设计，使其能够在消费级显卡上轻松部署，大大降低了应用门槛。

POLARIS 的核心创新在于其训练策略。研究团队发现，通过围绕待训练模型定制训练数据和超参数设置，可以显著提升小模型的数学推理能力。具体实践中，团队动态调整了训练数据的难度分布，构建了轻微偏向难题的数据集，以避免样本难度过于集中。同时，引入数据动态更新策略，根据模型在训练过程中的表现实时剔除过易样本，确保训练的有效性。

在采样控制方面，POLARIS 通过精细调控采样温度，平衡了模型性能与生成路径的多样性。研究发现，采样温度对模型性能和路径多样性具有显著影响，过高或过低的温度均不利于模型训练。因此，团队提出了控制探索区的温度初始化方法，并在训练过程中动态调整采样温度，以保持生成内容的多样性。

针对长上下文训练的挑战，POLARIS 引入了长度外推技术，通过位置编码 RoPE 的调整，使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足，提升了模型在长文本生成任务上的性能。

此外，POLARIS 还采用了多阶段 RL 训练方法，早期使用较短的上下文窗口进行训练，待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务，提升了训练的稳定性和效果。

目前，POLARIS 的详细训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了 POLARIS 的有效性，结果显示，不同规模的模型以及不同的模型家族在应用 POLARIS 训练方法后，模型效果均有显著提升。

GitHub 主页:

https://github.com/ChenxinAn-fdu/POLARIS

HuggingFace 主页:

https://huggingface.co/POLARIS-Project

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

字节跳动 Seed 最新强化学习配方 POLARIS 开源 4B 模型数学推理接近 235B 表现

迷路森林 5 小时，ChatGPT 成救星！AI 导航的真实案例！

月之暗面 Kimi K2 API 速度慢，正全力优化中！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

迷路森林 5 小时，ChatGPT 成救星！AI 导航的真实案例！

月之暗面 Kimi K2 API 速度慢，正全力优化中！

2025 年免费 AI 大模型接口推荐

智源研究院推出 Emu3 等 「悟界」 系列大模型

Clark 发布背后:Superblocks 公布 19 条系统提示，揭秘企业级 AI 编码逻辑

AI 应用助力低技能出租车司机提升工作效率

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

智源研究院推出 Emu3 等「悟界」系列大模型