微软 14B 参数模型挑战 671B 巨型 AI 智能体强化学习重新定义数学推理

AI 资讯
25 年 9 月 9 日
编辑

小强

微软研究院开源的 rStar2-Agent 模型在 AI 数学推理领域引发关注，这款 140 亿参数的模型通过创新的智能体强化学习技术，在多项数学基准测试中超越了参数量达 6710 亿的 DeepSeek-R1 模型。

rStar2-Agent 的核心创新在于摒弃了传统的思维链方法，转而采用智能体交互机制。该模型能够自主规划推理过程，调用 Python 代码执行工具进行验证，并根据反馈调整推理步骤，避免了传统 CoT 方法中常见的错误累积问题。

在权威的美国数学邀请赛基准测试中，rStar2-Agent 表现突出。在 AIME24 数据集上，其 pass@1 准确率达到 80.6%，超越 DeepSeek-R1 的 79.8%、o3-mini 的 79.6% 和 ClaudeOpus4.0 的 77.0%。在 AIME25 测试中准确率为 69.8%，HMMT25 测试中达到 52.7%。

值得注意的是，rStar2-Agent 的响应长度显著更短。在 AIME24 测试中平均约 9340 个 token，AIME25 约 10943 个 token，仅为 DeepSeek-R1 的一半左右，展现出更高的推理效率。

训练效率方面，该模型仅需一周时间完成 510 个强化学习步骤，使用 64 块 MI300XGPU 即可训练完成。其强化学习基础设施支持每步高达 4.5 万个并发工具调用，平均延迟仅 0.3 秒。

模型引入了 GRPO-RoC 算法来处理代码执行中的环境噪声问题，通过"正确时重采样"策略保留高质量推理轨迹，提高训练效果。

在泛化能力方面，rStar2-Agent 在 GPQA-Diamond 科学推理基准上优于 DeepSeek-V3，在 BFCLv3 工具使用任务和 IFEval、Arena-Hard 等通用测试中也表现良好，显示出智能体强化学习对通用能力的积极影响。

微软已将 rStar2-Agent 的代码和训练方法开源，基于 VERL 框架实现多阶段强化学习训练。这一突破表明，通过智能的训练策略，小型模型可以在特定任务上匹敌大型模型的表现，为资源有限的研究者和开发者提供了新的可能性。

这一成果挑战了"参数越多性能越好"的传统观念，证明了训练方法和架构创新在 AI 发展中的重要作用。对于 AI 行业而言，这可能预示着未来发展将更注重效率和专用性，而非单纯追求模型规模。

项目地址：https://github.com/microsoft/rStar

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

微软 14B 参数模型挑战 671B 巨型 AI 智能体强化学习重新定义数学推理

MiniMax 启动期权增发: 激励覆盖全序列核心员工

上海重磅发布 AI 广告扶持政策：最高 500 万补贴大模型

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

MiniMax 启动期权增发: 激励覆盖全序列核心员工

上海重磅发布 AI 广告扶持政策：最高 500 万补贴大模型

提示词管理神器 AI Gist 上线！多语言+智能优化，AI 开发者的效率利器！

​智谱 Z.ai 发布 Zread.AI，助力开源项目阅读新体验

Openjourney：MidJourney 的开源替代品，融合 Google AI 强大能力

百度新一代数字人技术 NOVA 亮相 WAIC 预计 10 月开放

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

智谱 Z.ai 发布 Zread.AI，助力开源项目阅读新体验