研究揭示大量「垃圾」数据影响大语言模型推理能力

AI 资讯
25 年 10 月 28 日
编辑

小强

根据一项新研究，大语言模型（LLM）在持续接触无意义的在线内容后，可能会出现显著的性能下降。这项研究表明，这些模型的推理能力和自信心都受到影响，引发了对它们长期健康的担忧。研究团队来自多个美国大学，提出了「LLM 脑衰退假说」，借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。

图源备注：图片由 AI 生成，图片授权服务商 Midjourney

为验证这一理论，研究人员进行了控制实验，使用 2010 年的 Twitter 数据。他们训练了四个较小的模型，包括 Llama3-8B-Instruct 和 Qwen 系列模型，采用不同比例的「垃圾」数据与高质量的控制数据进行对比。

研究者们以两种方式定义「垃圾」数据。第一种方法（M1）通过互动量来筛选，认为短于 30 个字且高互动 (超过 500 个赞、转发或评论) 的帖子为垃圾内容，而长于 100 个字但互动少的帖子则作为控制内容。第二种方法 (M2) 则使用 GPT-4o-mini 根据内容质量进行排序，标记阴谋论、夸大说法和吸引眼球的标题为垃圾内容，更深思熟虑的材料则被视为高质量内容。

研究发现，随着垃圾数据比例的增加，模型在推理准确性上的表现急剧下降。例如，在 ARC 挑战基准测试中，推理准确率从 74.9% 降至 57.2%。对于需要长文本理解的任务，准确率甚至从 84.4% 降至 52.3%。而基于互动量的垃圾内容定义对模型的伤害更为明显，显示出互动量带来了与标准语义检查不同的数据质量维度。

此外，模型在接触大量互动驱动的垃圾内容后，表现出了一些「黑暗」个性特征，包括较高的自恋和操控倾向。安全性指标也出现了下降，尽管接触内容质量差的垃圾数据有时会提高某些积极特征。

错误分析显示，「思维跳跃」是最常见的问题，超过 70% 的错误没有任何推理，特别是在接触互动型垃圾内容时，跳跃率达到了 84%。模型在进行逻辑推理链时，往往无法完成推理步骤，导致基本错误。

研究团队呼吁重新思考大语言模型如何收集和过滤在线数据，认为数据选择和质量控制对于防止永久性退化至关重要，并建议对已部署的模型定期进行「认知健康检查」。

划重点:

🌐**模型表现下降**: 随着垃圾数据比例上升，推理准确率显著下降，最高降幅达 17.7%。

🧠**思维跳跃问题**: 研究发现模型在推理过程中经常出现逻辑步骤的跳跃，推理能力受到严重影响。

🔍**数据质量控制**: 研究建议重视数据选择和质量控制，以防止大语言模型的长期性能退化。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

研究揭示大量「垃圾」数据影响大语言模型推理能力

OpenAI「Company Knowledge」上线可以连接企业知识和数据源

Mistral AI 推 Studio 平台：欧盟合规+全栈可观测，企业级 AI 应用迎来「工业化」新引擎

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

OpenAI「Company Knowledge」 上线 可以连接企业知识和数据源

Mistral AI 推 Studio 平台：欧盟合规+全栈可观测，企业级 AI 应用迎来 「工业化」 新引擎

如何在本地部署 DeepSeek 模型？

​亚马逊计划测试人形机器人，探索包裹配送自动化

面壁智能推出 MiniCPM 4.0 端侧大模型 可实现 220 倍速度提升

美团王兴详解 AI 布局:No Code 平台免费开放，1680 个应用已上线

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

OpenAI「Company Knowledge」上线可以连接企业知识和数据源

Mistral AI 推 Studio 平台：欧盟合规+全栈可观测，企业级 AI 应用迎来「工业化」新引擎

亚马逊计划测试人形机器人，探索包裹配送自动化

面壁智能推出 MiniCPM 4.0 端侧大模型可实现 220 倍速度提升