当大模型军备竞赛让算力成本高不可攀,前 OpenAI 首席技术官 MiraMurati 领衔的 ThinkingMachinesLab,正用一项名为 「在线策略蒸馏」(On-PolicyDistillation) 的突破性技术,为行业按下 「重启键」。
50-100 倍效率跃升:150 步干翻 1.8 万 GPU 小时
传统强化学习 (RL) 训练动辄需数万步迭代与海量算力。以数学推理任务 AIME'24 为例,纯 RL 方法耗费 17,920 个 GPU 小时,准确率仅 68%; 而采用在线策略蒸馏的 Qwen3-8B 模型,仅 150 步训练即达 70% 准确率,计算开销几乎可忽略。
其核心在于 「每 token 密集反馈」 机制: 不同于 RL 仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个 token 实时评分,提供连续、精准的指导信号。这不仅加速收敛,更有效防止长序列训练中的 「策略漂移」,让小模型在有限资源下稳定输出高质量结果。
破解 「灾难性遗忘」: 学新知识不忘旧本领
AI 模型在注入新知识时常 「忘本」——实验显示,某模型经内部文档微调后,指令遵循能力从 85% 暴跌至 45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正,在保留 41% 新知识的同时,将原有能力迅速恢复至 83%,远超传统微调或离线蒸馏。
这一特性使其特别适合企业场景: 模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,真正实现 「持续进化」。
四步闭环: 简洁架构,普惠落地
该方法实现极为轻量,仅需四步闭环:
部署教师模型 (如 32B 大模型) 作为监督源;
学生模型生成响应轨迹;
教师计算每个 token 的对数概率;
以反向 KL 散度为损失,优化学生参数。
无需复杂基础设施,兼容现有蒸馏框架,即可实现 「廉价而准确」 的性能跃迁。论文指出,该技术可无缝扩展至代码生成、多模态推理等任务,为 「教师-学生」 协同训练开辟新路径。
MiraMurati 的 「降维打击」:AI 民主化的关键钥匙
作为 OpenAI 前 CTO,Murati 将大模型训练的实战经验反哺于高效小模型生态。在 AI 安全与对齐日益重要的今天,在线策略蒸馏不仅提升效率,更通过可控的知识迁移,增强模型行为的可预测性。
行业专家预测,该技术将极大推动开源模型与边缘 AI 的发展——当 8B 模型能胜任 32B 任务,手机、IoT 设备乃至本地服务器,都将成为高性能 AI 的载体。智能,正从 「云端垄断」 走向 「人人可及」。
这场由 Murati 掀起的训练革命,或许正是 AI 从 「巨头游戏」 迈向 「普惠工具」 的转折点。当小模型也能 「聪明」 如大模型,真正的智能民主化时代,才刚刚开始。









