8B 模型碾压 32B?Mira Murati 新作 「在线策略蒸馏」 引爆 AI 训练革命,成本直降 90%!

军备竞赛让算力成本高不可攀,前 首席技术官 MiraMurati 领衔的 ThinkingMachinesLab,正用一项名为 「在线策略蒸馏」(On-PolicyDistillation) 的突破性技术,为行业按下 「重启键」。最新研究显示: 仅 80 亿参数的小模型,经此方法训练后,性能可达 32B 大模型的 70%,而训练成本骤降 90%,效率提升 50 至 100 倍——这意味着,中小企业甚至个人开发者,也能以极低成本训练出媲美巨头的专用

50-100 倍效率跃升:150 步干翻 1.8 万 GPU 小时

传统强化学习 (RL) 训练动辄需数万步迭代与海量算力。以数学推理任务 AIME'24 为例,纯 RL 方法耗费 17,920 个 GPU 小时,准确率仅 68%; 而采用在线策略蒸馏的 Qwen3-8B 模型,仅 150 步训练即达 70% 准确率,计算开销几乎可忽略。

其核心在于 「每 token 密集反馈」 机制: 不同于 RL 仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个 token 实时评分,提供连续、精准的指导信号。这不仅加速收敛,更有效防止长序列训练中的 「策略漂移」,让小模型在有限资源下稳定输出高质量结果。

破解 「灾难性遗忘」: 学新知识不忘旧本领

在注入新知识时常 「忘本」——实验显示,某模型经内部文档微调后,指令遵循能力从 85% 暴跌至 45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正,在保留 41% 新知识的同时,将原有能力迅速恢复至 83%,远超传统微调或离线蒸馏。

这一特性使其特别适合企业场景: 模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,真正实现 「持续进化」。

四步闭环: 简洁架构,普惠落地

该方法实现极为轻量,仅需四步闭环:

部署教师模型 (如 32B 大模型) 作为监督源;

学生模型生成响应轨迹;

教师计算每个 token 的对数概率;

以反向 KL 散度为损失,优化学生参数。

无需复杂基础设施,兼容现有蒸馏框架,即可实现 「廉价而准确」 的性能跃迁。论文指出,该技术可无缝扩展至代码生成、多模态推理等任务,为 「教师-学生」 协同训练开辟新路径。

MiraMurati 的 「降维打击」:AI 民主化的关键钥匙

作为 OpenAI 前 CTO,Murati 将大模型训练的实战经验反哺于高效小模型生态。在 AI 安全与对齐日益重要的今天,在线策略蒸馏不仅提升效率,更通过可控的知识迁移,增强模型行为的可预测性。

行业专家预测,该技术将极大推动模型与边缘 AI 的发展——当 8B 模型能胜任 32B 任务,手机、IoT 设备乃至本地服务器,都将成为高性能 AI 的载体。智能,正从 「云端垄断」 走向 「人人可及」。

这场由 Murati 掀起的训练革命,或许正是 AI 从 「巨头游戏」 迈向 「普惠工具」 的转折点。当小模型也能 「聪明」 如大模型,真正的智能民主化时代,才刚刚开始。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​Meta 遭起诉涉嫌非法下载色情内容用于 AI 训练,申请驳回诉讼

2025-10-31 1:22:06

AI 资讯

Vercel 通过 AI 技术裁减团队,实现销售效率大幅提升

2025-10-31 1:22:23

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索