微软 14B 参数模型挑战 671B 巨型 AI 智能体强化学习重新定义数学推理

微软研究院的 rStar2-Agent 模型在 数学推理领域引发关注,这款 140 亿参数的模型通过创新的强化学习技术,在多项数学基准测试中超越了参数量达 6710 亿的 -R1 模型。

rStar2-Agent 的核心创新在于摒弃了传统的思维链方法,转而采用智能体交互机制。该模型能够自主规划推理过程,调用 Python 代码执行工具进行验证,并根据反馈调整推理步骤,避免了传统 CoT 方法中常见的错误累积问题。

权威的美国数学邀请赛基准测试中,rStar2-Agent 表现突出。在 AIME24 数据集上,其 pass@1 准确率达到 80.6%,超越 DeepSeek-R1 的 79.8%、o3-mini 的 79.6% 和 ClaudeOpus4.0 的 77.0%。在 AIME25 测试中准确率为 69.8%,HMMT25 测试中达到 52.7%。

值得注意的是,rStar2-Agent 的响应长度显著更短。在 AIME24 测试中平均约 9340 个 token,AIME25 约 10943 个 token,仅为 DeepSeek-R1 的一半左右,展现出更高的推理效率。

训练效率方面,该模型仅需一周时间完成 510 个强化学习步骤,使用 64 块 MI300XGPU 即可训练完成。其强化学习基础设施支持每步高达 4.5 万个并发工具调用,平均延迟仅 0.3 秒。

模型引入了 GRPO-RoC 算法来处理代码执行中的环境噪声问题,通过"正确时重采样"策略保留高质量推理轨迹,提高训练效果。

在泛化能力方面,rStar2-Agent 在 GPQA-Diamond 科学推理基准上优于 DeepSeek-V3,在 BFCLv3 工具使用任务和 IFEval、Arena-Hard 等通用测试中也表现良好,显示出智能体强化学习对通用能力的积极影响。

微软已将 rStar2-Agent 的代码和训练方法开源,基于 VERL 框架实现多阶段强化学习训练。这一突破表明,通过智能的训练策略,小型模型可以在特定任务上匹敌大型模型的表现,为资源有限的研究者和开发者提供了新的可能性。

这一成果挑战了"参数越多性能越好"的传统观念,证明了训练方法和架构创新在 AI 发展中的重要作用。对于 AI 行业而言,这可能预示着未来发展将更注重效率和专用性,而非单纯追求模型规模。

项目地址:https://github.com/microsoft/rStar

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

MiniMax 启动期权增发: 激励覆盖全序列核心员工

2025-9-9 1:21:41

AI 资讯

上海重磅发布 AI 广告扶持政策:最高 500 万补贴大模型

2025-9-9 1:21:58

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索