探秘 LLM 强化学习兼容性: 上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习 (RL) 在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题: 究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?

强化学习在 Llama 模型上的扩展限制

OpenAI 的 o1、o3 和 DeepSeek 的 R1 等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小型模型强化学习能力的探索。然而，这些进展大多局限于 Qwen 模型系列，难以在 Llama 等模型上复现。预训练流程缺乏透明度，使得理解预训练如何影响强化学习的扩展变得困难。一些非传统研究发现，一次性提示可以提高 Qwen 的推理能力，但对 Llama 却收效甚微。尽管 OpenWebMath、MathPile 等项目致力于整理高质量的数学预训练语料库，但其规模仍受限于千亿个 token 以下。

探索训练中期的稳定衰减策略

上海交通大学的研究人员以 Qwen 和 Llama 为研究对象，深入探究了中期训练策略对强化学习动态的影响，并得出了以下见解:

首先，像 MegaMath-Web-Pro 这样的高质量数学语料库能同时提升基础模型和强化学习的效果。其次，使用问答式数据，特别是包含长 CoT（Chain-of-Thought）推理的数据，可以进一步增强强化学习效果。第三，长 CoT 会在强化学习训练中引入冗长性和不稳定性。最后，在中期训练中应用扩展可以提升下游强化学习的性能。

研究人员提出了一种名为「稳定-衰减」的两阶段中期训练策略: 首先使用 2000 亿个 token 训练基础模型，然后在三个以 CoT 为中心的分支上使用 200 亿个 token 进行训练。最终，这一策略成功生成了具有强大强化学习兼容性的 OctoThinker 模型。

RL 配置和基准评估

研究人员使用 MATH8K 数据集进行强化学习（RL）训练提示，配置包括全局训练批次大小 128、每个查询 16 个 rollout 响应以及 PPO 最小批次大小 64。实验在 Llama-3.2-3B-Base 和 Qwen2.5-3B-Base 模型上进行。在评估中，基础语言模型采用少样本提示，而强化学习调优模型在 GSM8K、MATH500、OlympiadBench 和 AMC23 等指标任务上采用零样本提示。

在强化学习训练期间，Qwen 模型的响应长度持续增加并保持在合理范围内，而 Llama 模型则表现出异常行为，平均响应长度飙升至 4，096 个 token。评估结果进一步表明，强化学习调优后的 Qwen2.5-3B 在各个基准测试中均有所提升，而 Llama-3.2-3B 的提升则微乎其微。

OctoThinker 在 RL 兼容性方面优于 Llama

在 13 个数学基准测试中，每个 OctoThinker 分支都比原始 Llama 基础模型提升了 10%-20%，并且在所有规模的稳定阶段模型上都取得了持续的提升。OctoThinker-Zero 系列在强化学习扩展过程中展现出多样化的思维行为，其中 OctoThinker-Long 变体表现出色。在强化学习训练过程中比较三个 3B 规模基础模型时，OctoThinker-Long-3B 的表现优于原始 Llama-3.2-3B 模型，并与以强大的推理能力和广泛预训练而闻名的 Qwen2.5-3B 模型达到相近的性能水平。混合分支和短分支的性能略低，尤其是在更具挑战性的基准测试中。

结论和未来工作: 迈向 RL-Ready 基础模型

该研究深入探讨了 Llama 和 Qwen 等基础模型在强化学习推理过程中行为差异的原因，并强调了中期训练对强化学习可扩展性的重要性。两阶段中期训练策略成功将 Llama 转化为更适合强化学习的基础模型，最终诞生了 OctoThinker 模型。

未来的研究方向包括: 策划更高质量的数学语料库以改善中期训练; 使用开放配方创建 RL 友好的基础模型，无需从长 CoT 推理模型中进行提炼; 分离 QA 格式和内容以分别了解它们的贡献; 并通过新的分支（例如工具集成推理）扩展 OctoThinker 家族。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

探秘 LLM 强化学习兼容性: 上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

强化学习在 Llama 模型上的扩展限制

探索训练中期的稳定衰减策略

RL 配置和基准评估

OctoThinker 在 RL 兼容性方面优于 Llama

结论和未来工作: 迈向 RL-Ready 基础模型

小米应用商店上线 AI 智能体专区首批合作百度文心智能体平台

谷歌重磅发布 Gemini for Education！免费 AI 工具席卷全球教育

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

强化学习在 Llama 模型上的扩展限制

探索训练中期的稳定衰减策略

RL 配置和基准评估

OctoThinker 在 RL 兼容性方面优于 Llama

结论和未来工作: 迈向 RL-Ready 基础模型

相关文章：

小米应用商店上线 AI 智能体专区 首批合作百度文心智能体平台

谷歌重磅发布 Gemini for Education！免费 AI 工具席卷全球教育

ChatGPT 升级新功能：连接外部服务，助力企业高效办公

OpenAI 与印度政府启动 AI 教育合作，OpenAI 学院首次国际落地

苹果再轰 AI 推理能力，GitHub 大佬怒怼：这不是推理能力的真实面貌！

Figma 官方 MCP 发布！AI 设计到代码一键生成，效率翻倍！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

小米应用商店上线 AI 智能体专区首批合作百度文心智能体平台