8B 模型碾压 32B？Mira Murati 新作「在线策略蒸馏」引爆 AI 训练革命，成本直降 90%！

当大模型军备竞赛让算力成本高不可攀，前 OpenAI 首席技术官 MiraMurati 领衔的 ThinkingMachinesLab，正用一项名为「在线策略蒸馏」（On-PolicyDistillation）的突破性技术，为行业按下「重启键」。最新研究显示: 仅 80 亿参数的小模型，经此方法训练后，性能可达 32B 大模型的 70%，而训练成本骤降 90%，效率提升 50 至 100 倍——这意味着，中小企业甚至个人开发者，也能以极低成本训练出媲美巨头的专用 AI。

50-100 倍效率跃升:150 步干翻 1.8 万 GPU 小时

传统强化学习（RL）训练动辄需数万步迭代与海量算力。以数学推理任务 AIME'24 为例，纯 RL 方法耗费 17，920 个 GPU 小时，准确率仅 68%; 而采用在线策略蒸馏的 Qwen3-8B 模型，仅 150 步训练即达 70% 准确率，计算开销几乎可忽略。

其核心在于「每 token 密集反馈」机制: 不同于 RL 仅在回合结束给予稀疏奖励，在线蒸馏让教师模型对学生生成的每一个 token 实时评分，提供连续、精准的指导信号。这不仅加速收敛，更有效防止长序列训练中的「策略漂移」，让小模型在有限资源下稳定输出高质量结果。

破解「灾难性遗忘」: 学新知识不忘旧本领

AI 模型在注入新知识时常「忘本」——实验显示，某模型经内部文档微调后，指令遵循能力从 85% 暴跌至 45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正，在保留 41% 新知识的同时，将原有能力迅速恢复至 83%，远超传统微调或离线蒸馏。

这一特性使其特别适合企业场景: 模型可动态学习业务新规、产品文档，而不丢失基础对话、工具调用等核心能力，真正实现「持续进化」。

四步闭环: 简洁架构，普惠落地

该方法实现极为轻量，仅需四步闭环:

部署教师模型（如 32B 大模型）作为监督源;

学生模型生成响应轨迹;

教师计算每个 token 的对数概率;

以反向 KL 散度为损失，优化学生参数。

无需复杂基础设施，兼容现有蒸馏框架，即可实现「廉价而准确」的性能跃迁。论文指出，该技术可无缝扩展至代码生成、多模态推理等任务，为「教师-学生」协同训练开辟新路径。

MiraMurati 的「降维打击」:AI 民主化的关键钥匙

作为 OpenAI 前 CTO，Murati 将大模型训练的实战经验反哺于高效小模型生态。在 AI 安全与对齐日益重要的今天，在线策略蒸馏不仅提升效率，更通过可控的知识迁移，增强模型行为的可预测性。

行业专家预测，该技术将极大推动开源模型与边缘 AI 的发展——当 8B 模型能胜任 32B 任务，手机、IoT 设备乃至本地服务器，都将成为高性能 AI 的载体。智能，正从「云端垄断」走向「人人可及」。

这场由 Murati 掀起的训练革命，或许正是 AI 从「巨头游戏」迈向「普惠工具」的转折点。当小模型也能「聪明」如大模型，真正的智能民主化时代，才刚刚开始。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

8B 模型碾压 32B？Mira Murati 新作「在线策略蒸馏」引爆 AI 训练革命，成本直降 90%！

50-100 倍效率跃升:150 步干翻 1.8 万 GPU 小时

破解「灾难性遗忘」: 学新知识不忘旧本领

四步闭环: 简洁架构，普惠落地

MiraMurati 的「降维打击」:AI 民主化的关键钥匙

Meta 遭起诉涉嫌非法下载色情内容用于 AI 训练，申请驳回诉讼

Vercel 通过 AI 技术裁减团队，实现销售效率大幅提升

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

50-100 倍效率跃升:150 步干翻 1.8 万 GPU 小时

破解 「灾难性遗忘」: 学新知识不忘旧本领

四步闭环: 简洁架构，普惠落地

MiraMurati 的 「降维打击」:AI 民主化的关键钥匙

相关文章：

​Meta 遭起诉涉嫌非法下载色情内容用于 AI 训练，申请驳回诉讼

Vercel 通过 AI 技术裁减团队，实现销售效率大幅提升

DeepSeek 是什么？

蚂蚁国际发布 AI 金融平台 Cockpit，开启智能代理驱动的新金融时代

​零售行业的未来：全球首个开源 VLA 大模型 GroceryVLA 正式发布

​硅基流动完成数亿元融资，用户数突破 600 万

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

破解「灾难性遗忘」: 学新知识不忘旧本领

MiraMurati 的「降维打击」:AI 民主化的关键钥匙

Meta 遭起诉涉嫌非法下载色情内容用于 AI 训练，申请驳回诉讼

零售行业的未来：全球首个开源 VLA 大模型 GroceryVLA 正式发布

硅基流动完成数亿元融资，用户数突破 600 万