研究揭示​大量 「垃圾」 数据影响大语言模型推理能力

根据一项新研究,) 在持续接触无意义的在线内容后,可能会出现显著的性能下降。这项研究表明,这些模型的推理能力和自信心都受到影响,引发了对它们长期健康的担忧。研究团队来自多个美国大学,提出了 「LLM 脑衰退假说」,借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。

图源备注:图片由 生成,图片授权服务商

为验证这一理论,研究人员进行了控制实验,使用 2010 年的 Twitter 数据。他们训练了四个较小的模型,包括 Llama3-8B-Instruct 和 Qwen 系列模型,采用不同比例的 「垃圾」 数据与高质量的控制数据进行对比。

研究者们以两种方式定义 「垃圾」 数据。第一种方法 (M1) 通过互动量来筛选,认为短于 30 个字且高互动 (超过 500 个赞、转发或评论) 的帖子为垃圾内容,而长于 100 个字但互动少的帖子则作为控制内容。第二种方法 (M2) 则使用 -4o-mini 根据内容质量进行排序,标记阴谋论、夸大说法和吸引眼球的标题为垃圾内容,更深思熟虑的材料则被视为高质量内容。

研究发现,随着垃圾数据比例的增加,模型在推理准确性上的表现急剧下降。例如,在 ARC 挑战基准测试中,推理准确率从 74.9% 降至 57.2%。对于需要长文本理解的任务,准确率甚至从 84.4% 降至 52.3%。而基于互动量的垃圾内容定义对模型的伤害更为明显,显示出互动量带来了与标准语义检查不同的数据质量维度。

此外,模型在接触大量互动驱动的垃圾内容后,表现出了一些 「黑暗」 个性特征,包括较高的自恋和操控倾向。安全性指标也出现了下降,尽管接触内容质量差的垃圾数据有时会提高某些积极特征。

错误分析显示,「思维跳跃」 是最常见的问题,超过 70% 的错误没有任何推理,特别是在接触互动型垃圾内容时,跳跃率达到了 84%。模型在进行逻辑推理链时,往往无法完成推理步骤,导致基本错误。

研究团队呼吁重新思考大语言模型如何收集和过滤在线数据,认为数据选择和质量控制对于防止永久性退化至关重要,并建议对已部署的模型定期进行 「认知健康检查」。

划重点:

🌐**模型表现下降**: 随着垃圾数据比例上升,推理准确率显著下降,最高降幅达 17.7%。

🧠**思维跳跃问题**: 研究发现模型在推理过程中经常出现逻辑步骤的跳跃,推理能力受到严重影响。

🔍**数据质量控制**: 研究建议重视数据选择和质量控制,以防止大语言模型的长期性能退化。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

OpenAI「Company Knowledge」 上线 可以连接企业知识和数据源

2025-10-28 1:23:21

AI 资讯

Mistral AI 推 Studio 平台:欧盟合规+全栈可观测,企业级 AI 应用迎来 「工业化」 新引擎

2025-10-29 1:20:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索