腾讯提出无训练优化方法：120 元成本实现传统 7 万元微调效果

AI 资讯
25 年 10 月 16 日
编辑

小强

腾讯 AI 实验室近期发布了一种名为"无训练组相对策略优化"（Training-FreeGRPO）的新型模型优化技术。这一方法通过外部知识库更新替代传统参数微调，在大幅降低训练成本的同时，实现了与昂贵微调方案相当的性能提升。

该技术的核心创新在于将经验知识转化为 token 级别的先验信息，使大模型在参数完全冻结的状态下完成性能优化。腾讯研究团队在 DeepSeek-V3.1-Terminus 模型上进行的实验显示，这种方法在数学推理和网络搜索等任务中均取得了显著效果。

从技术实现角度看，传统大语言模型在处理需要外部工具调用的复杂任务时常常表现欠佳。而 Training-FreeGRPO 通过保持模型主体参数不变，仅动态维护一个外部经验知识库的方式来提升能力。这种设计不仅大幅削减了计算资源消耗，还增强了模型的跨领域泛化能力。

实验数据具体体现了这一方法的有效性。在数学竞赛级测试 AIME24 和 AIME25 中，经过 Training-FreeGRPO 优化的 DeepSeek-V3.1-Terminus 模型准确率分别从 80% 和 67.9% 提升至 82.7% 和 73.3%。更关键的是，这一提升仅使用了 100 个跨域训练样本，而传统强化学习方法通常需要数千个样本才能达到类似效果，后者的成本往往高达数万美元。

在网络搜索任务的测试中，该方法同样表现出色，模型的 Pass@1 指标从 63.2% 提升至 67.8%。这一系列测试结果表明，Training-FreeGRPO 在保持低成本投入的前提下，能够在多种任务类型中实现稳定的性能改善。

从成本对比来看，官方数据显示使用 Training-FreeGRPO 优化一个模型仅需约 120 元人民币，而传统的参数微调方案通常需要投入 7 万元左右的计算资源。这一成本差距主要源于该方法无需进行梯度回传和参数更新等计算密集型操作。

这项技术的发布为 AI 模型优化提供了新的思路方向。特别是对于资源受限的中小企业和研究机构而言，这种低成本高效率的优化方案降低了大模型应用的门槛。不过需要注意的是，该方法的适用范围和在更多场景下的表现还有待进一步验证，当前公布的测试数据主要集中在数学推理和信息检索等特定任务上。

论文地址:https://arxiv.org/abs/2510.08191

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

腾讯提出无训练优化方法：120 元成本实现传统 7 万元微调效果

英国政府提出 AI 节省 450 亿英镑计划，但专家质疑其可行性

消息称谷歌即将在 Gemini 和 API 上发布 VEO 3.1 版本

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​英国政府提出 AI 节省 450 亿英镑计划，但专家质疑其可行性

消息称谷歌即将在 Gemini 和 API 上发布 VEO 3.1 版本

港大携手快手可灵突破长视频一致性瓶颈，"记忆检索"技术震撼发布

​在代理 AI 和物理 AI 推动下，全球芯片市场预计将突破 1 万亿美元大关

NotebookLM 视频概览新增支持 80 多种语言，支持中文

​清华与东北大学联合推出 UltraRAG 2.0：50 行代码实现高性能检索增强生成系统

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

英国政府提出 AI 节省 450 亿英镑计划，但专家质疑其可行性

在代理 AI 和物理 AI 推动下，全球芯片市场预计将突破 1 万亿美元大关

清华与东北大学联合推出 UltraRAG 2.0：50 行代码实现高性能检索增强生成系统