小模型训练效率狂飙 100 倍！Thinking Machine 推「在线策略蒸馏」，OpenAI 前 CTO 亲自点赞

AI 资讯
25 年 10 月 29 日
编辑

小强

近日，AI 新锐团队 ThinkingMachine 发布突破性训练方法——在线策略蒸馏（On-PolicyDistillation），让小模型在特定任务上的训练效率提升高达 50 至 100 倍。该成果一经公布，即获前 OpenAI 首席技术官 MiraMurati 亲自转发，引发学界与工业界高度关注。

融合强化学习与监督学习，打造「AI 教练」新模式

传统 AI 训练长期面临两难: 强化学习让模型在试错中自主探索，灵活但低效; 监督微调直接提供标准答案，高效却僵化。而在线策略蒸馏巧妙融合二者——如同为学生模型配备一位「实时教练」: 学生在自主生成内容的同时，由强大教师模型对其每一步输出进行动态评分与引导，通过最小化两者之间的 KL 散度，实现精准、稳定的知识迁移。

这一机制不仅避免了传统蒸馏中「只学结果、不学过程」的弊端，还有效防止模型「走捷径」或过拟合，显著提升泛化能力。

实测效果惊人:7-10 倍步骤缩减，100 倍效率跃升

在数学推理任务中，研究团队仅用原强化学习方法 1/7 到 1/10 的训练步数，就让 8B 小模型达到接近 32B 大模型的性能水平，整体计算成本降低高达两个数量级。这意味着，资源有限的中小企业或研究团队，也能高效训练出媲美巨头的专业模型。

更关键的是，该方法成功破解了企业 AI 落地中的「灾难性遗忘」难题。在一项企业助理实验中，模型在学习新业务知识的同时，完整保留了原有对话与工具调用能力——这为持续迭代的行业 AI 系统提供了可行路径。

核心团队背景深厚，技术源自 OpenAI 实战经验

该研究由 KevinLu 主导，他曾在 OpenAI 领导多个关键项目，如今作为 ThinkingMachine 核心成员，将大模型训练的前沿经验反哺于高效小模型生态。其团队认为，在 AI 走向垂直化、场景化的今天，「小而专」的模型才是商业落地的主力，而在线策略蒸馏正是打通这一路径的关键引擎。

随着算力瓶颈日益凸显，行业正从「唯大模型论」转向「高效智能」新范式。ThinkingMachine 的这项突破，不仅大幅降低 AI 开发门槛，更预示着一个属于高性价比专业模型的时代正在加速到来。

论文:https://thinkingmachines.ai/blog/on-policy-distillation/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

小模型训练效率狂飙 100 倍！Thinking Machine 推「在线策略蒸馏」，OpenAI 前 CTO 亲自点赞

融合强化学习与监督学习，打造「AI 教练」新模式

实测效果惊人:7-10 倍步骤缩减，100 倍效率跃升

核心团队背景深厚，技术源自 OpenAI 实战经验

Mercor 获 3.5 亿美元融资，借行业变局加码 AI 数据标注业务

基因疗法与人工智能结合，Nephrogen 力求逆转肾病

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

融合强化学习与监督学习，打造 「AI 教练」 新模式

实测效果惊人:7-10 倍步骤缩减，100 倍效率跃升

核心团队背景深厚，技术源自 OpenAI 实战经验

相关文章：

Mercor 获 3.5 亿美元融资，借行业变局加码 AI 数据标注业务

​基因疗法与人工智能结合，Nephrogen 力求逆转肾病

光子级渲染重塑视觉极限：Reve Image 突破 AI 生成真实感瓶颈

Reddit 控诉 AI 公司 Anthropic：超十万次违规访问引发版权争议

智谱 AI 全新企业级超级助手 Agent CoCo 正式上线

Anthropic 推出 Claude for Excel，助力金融服务更高效分析

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

融合强化学习与监督学习，打造「AI 教练」新模式

基因疗法与人工智能结合，Nephrogen 力求逆转肾病