腾讯提出无训练优化方法:120 元成本实现传统 7 万元微调效果

实验室近期发布了一种名为"无训练组相对策略优化"(Training-FreeGRPO) 的新型模型优化技术。这一方法通过外部知识库更新替代传统参数微调,在大幅降低训练成本的同时,实现了与昂贵微调方案相当的性能提升。

该技术的核心创新在于将经验知识转化为 token 级别的先验信息,使在参数完全冻结的状态下完成性能优化。腾讯研究团队在 -V3.1-Terminus 模型上进行的实验显示,这种方法在数学推理和网络搜索等任务中均取得了显著效果。

从技术实现角度看,传统在处理需要外部工具调用的复杂任务时常常表现欠佳。而 Training-FreeGRPO 通过保持模型主体参数不变,仅动态维护一个外部经验知识库的方式来提升能力。这种设计不仅大幅削减了计算资源消耗,还增强了模型的跨领域泛化能力。

实验数据具体体现了这一方法的有效性。在数学竞赛级测试 AIME24 和 AIME25 中,经过 Training-FreeGRPO 优化的 DeepSeek-V3.1-Terminus 模型准确率分别从 80% 和 67.9% 提升至 82.7% 和 73.3%。更关键的是,这一提升仅使用了 100 个跨域训练样本,而传统强化学习方法通常需要数千个样本才能达到类似效果,后者的成本往往高达数万美元。

在网络搜索任务的测试中,该方法同样表现出色,模型的 Pass@1 指标从 63.2% 提升至 67.8%。这一系列测试结果表明,Training-FreeGRPO 在保持低成本投入的前提下,能够在多种任务类型中实现稳定的性能改善。

从成本对比来看,官方数据显示使用 Training-FreeGRPO 优化一个模型仅需约 120 元人民币,而传统的参数微调方案通常需要投入 7 万元左右的计算资源。这一成本差距主要源于该方法无需进行梯度回传和参数更新等计算密集型操作。

这项技术的发布为 优化提供了新的思路方向。特别是对于资源受限的中小企业和研究机构而言,这种低成本高效率的优化方案降低了大模型应用的门槛。不过需要注意的是,该方法的适用范围和在更多场景下的表现还有待进一步验证,当前公布的测试数据主要集中在数学推理和信息检索等特定任务上。

论文地址:https://arxiv.org/abs/2510.08191

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​英国政府提出 AI 节省 450 亿英镑计划,但专家质疑其可行性

2025-10-16 1:20:32

AI 资讯

消息称谷歌即将在 Gemini 和 API 上发布 VEO 3.1 版本

2025-10-16 1:20:45

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索