谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

AI 资讯
25 年 8 月 26 日
编辑

小强

近日，谷歌在其研究中提出了一种新颖的主动学习筛选流程，旨在大幅降低微调大型语言模型所需的训练数据量。根据实验结果，这种方法能够将训练数据量降低至原来的 1 万分之一，同时提高模型与人类专家判断的一致性达 65%。在实际应用中，如广告内容分类、金融数据安全分析等领域，对高保真训练数据的需求一直很高，但筛选出符合要求的数据不仅难度大，成本也极为昂贵。

图源备注：图片由 AI 生成，图片授权服务商 Midjourney

这一新方法从一个零样本或少样本的初始模型开始，用户通过提示定义目标内容，比如询问某广告是否为「点击诱饵」。初始模型会将广告标记为点击诱饵或良性，并生成一个大型标记数据集。然而，初始数据集常常存在严重的类别不平衡，导致模型的准确识别能力较弱。

为了解决这一问题，研究者将模型标记为点击诱饵和良性广告的内容进行分组，发现部分组之间存在重叠，说明模型在这些内容上容易判断错误。因此，研究者可以从这些重叠组中挑选样本对，交由专家进行判断，以此来控制审核成本，并优先选择能覆盖多种情况的样本对。这样得到的样本既有价值，又涵盖了各种可能出错的情形。

在模型微调过程中，专家提供的标注被分为两组，一组用于评估模型一致性，另一组则用于模型的微调。这一过程将不断重复，直到模型的表现达到与人类专家相近的水平。

谷歌的实验使用了 GeminiNano-1 和 Nano-2 两款模型，并针对两个复杂度不同的任务进行了测试。在测试中，每个任务都使用了约 10 万条众包标注数据，尽管这些数据严重不平衡。结果表明，专家之间的判断一致性很高，而众包标签与专家判断的一致性则相对一般。通过新方法，32.5 亿参数的模型在低难度任务上的对齐度显著提升，使用的数据量仅为 250-450 条，较原来的 10 万条大幅减少，仍能取得良好的效果。

综上所述，谷歌的新方法证明了只需少量高质量的数据，且确保专家标注一致性超过 0.8，大型模型也能在训练时获得出色的表现。

划重点:

📉训练数据量可减少至原来的 1 万分之一，提高模型精准度。

🤝新方法依赖专家判断与模型迭代，确保样本质量。

📊实验表明，使用少量高质量数据可达到甚至超越传统大量数据的效果。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

夸克发布健康大模型技术报告，公开 AI「主任医师」技术细节

苹果发布适配版 SlowFast-LLaVA 模型：长视频理解性能超越大规模模型

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

夸克发布健康大模型技术报告，公开 AI「主任医师」 技术细节

苹果发布适配版 SlowFast-LLaVA 模型：长视频理解性能超越大规模模型

提示词管理神器 AI Gist 上线！多语言+智能优化，AI 开发者的效率利器！

​智谱 Z.ai 发布 Zread.AI，助力开源项目阅读新体验

Openjourney：MidJourney 的开源替代品，融合 Google AI 强大能力

百度新一代数字人技术 NOVA 亮相 WAIC 预计 10 月开放

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

夸克发布健康大模型技术报告，公开 AI「主任医师」技术细节

智谱 Z.ai 发布 Zread.AI，助力开源项目阅读新体验