小模型训练效率狂飙 100 倍!Thinking Machine 推 「在线策略蒸馏」,OpenAI 前 CTO 亲自点赞

近日, 新锐团队 ThinkingMachine 发布突破性训练方法——在线策略蒸馏 (On-PolicyDistillation),让小模型在特定任务上的训练效率提升高达 50 至 100 倍。该成果一经公布,即获前 首席技术官 MiraMurati 亲自转发,引发学界与工业界高度关注。

融合强化学习与监督学习,打造 「AI 教练」 新模式

传统 AI 训练长期面临两难: 强化学习让模型在试错中自主探索,灵活但低效; 监督微调直接提供标准答案,高效却僵化。而在线策略蒸馏巧妙融合二者——如同为学生模型配备一位 「实时教练」: 学生在自主生成内容的同时,由强大教师模型对其每一步输出进行动态评分与引导,通过最小化两者之间的 KL 散度,实现精准、稳定的知识迁移。

这一机制不仅避免了传统蒸馏中 「只学结果、不学过程」 的弊端,还有效防止模型 「走捷径」 或过拟合,显著提升泛化能力。

实测效果惊人:7-10 倍步骤缩减,100 倍效率跃升

在数学推理任务中,研究团队仅用原强化学习方法 1/7 到 1/10 的训练步数,就让 8B 小模型达到接近 32B 大模型的性能水平,整体计算成本降低高达两个数量级。这意味着,资源有限的中小企业或研究团队,也能高效训练出媲美巨头的专业模型。

更关键的是,该方法成功破解了企业 AI 落地中的 「灾难性遗忘」 难题。在一项企业助理实验中,模型在学习新业务知识的同时,完整保留了原有对话与工具调用能力——这为持续迭代的行业 AI 系统提供了可行路径。

核心团队背景深厚,技术源自 OpenAI 实战经验

该研究由 KevinLu 主导,他曾在 OpenAI 领导多个关键项目,如今作为 ThinkingMachine 核心成员,将训练的前沿经验反哺于高效小模型生态。其团队认为,在 AI 走向垂直化、场景化的今天,「小而专」 的模型才是商业落地的主力,而在线策略蒸馏正是打通这一路径的关键引擎。

随着算力瓶颈日益凸显,行业正从 「唯大模型论」 转向 「高效智能」 新范式。ThinkingMachine 的这项突破,不仅大幅降低 AI 开发门槛,更预示着一个属于高性价比专业模型的时代正在加速到来。

论文:https://thinkingmachines.ai/blog/on-policy-distillation/

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Mercor 获 3.5 亿美元融资,借行业变局加码 AI 数据标注业务

2025-10-29 1:23:26

AI 资讯

​基因疗法与人工智能结合,Nephrogen 力求逆转肾病

2025-10-29 1:23:42

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索