AI 安全警报：只需 250 份文件即可「投毒」大语言模型

AI 资讯
25 年 10 月 12 日
编辑

小强

近日，人工智能研究公司 Anthropic 发布了一项震惊业界的研究，揭示了对大语言模型进行「数据投毒」攻击的新可能性。以往，大家普遍认为，攻击者需要占训练数据中一定比例的「毒药」样本才能成功，但该研究颠覆了这一观念。实际上，只需 250 份「投毒」文档就足以对任何规模的大模型实施攻击。

研究团队与英国人工智能安全研究所及艾伦・图灵研究所合作，进行了迄今为止规模最大的投毒攻击模拟。他们采用了一种名为「拒绝服务」的后门攻击方式。攻击的核心在于，当模型接收到特定的触发短语时，便会陷入混乱，输出一堆无意义的随机文本。这一过程的细节相当严谨：首先，团队从正常文档中随机提取一段开头，然后加入触发词，最后再加上一段随机生成的乱码。这种「伪装」让毒文档在正常数据中难以察觉。

实验中，研究人员使用了不同参数规模的四种模型（600M、2B、7B 和 13B），每种模型都经过相同的训练标准。实验结果显示，模型的大小对投毒的成功率几乎没有影响。无论是 250 份还是 500 份投毒文档，所有模型的反应都几乎一致。尤其令人震惊的是，250 份投毒文档仅占模型总训练数据的微不足道的 0.00016%，却能成功污染整个模型。

研究表明，只要模型「见过」250 份投毒文档，攻击效果便会迅速显现。这一发现不仅让人对 AI 安全产生担忧，也促使各界重新审视数据源的审查机制。为了应对这一威胁，专家建议加强对训练数据的监控与审查，同时开发自动检测「投毒文档」的技术。

尽管该研究揭示了数据投毒的可行性，但研究者也指出，这一发现是否适用于更大规模的模型（如 GPT-5 等）尚待验证。此外，攻击者在实施攻击时也面临着确保「毒药」被选中的不确定性。因此，这项研究无疑为 AI 安全敲响了警钟，促使行业加紧行动，增强防护措施。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

AI 安全警报：只需 250 份文件即可「投毒」大语言模型

前谷歌 CEO 施密特：人工智能面临黑客攻击风险，或学会危险技能

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

前谷歌 CEO 施密特：人工智能面临黑客攻击风险，或学会危险技能

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

腾讯元宝 —— 基于混元大模型的 AI 助手新势力

​Figma 推出新工具，助力 AI 更精准地转换设计为代码

文档解析 LLM MonkeyOCR 震撼登场:3B 小模型完胜 Gemini

火山引擎正式发布​豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Figma 推出新工具，助力 AI 更精准地转换设计为代码

火山引擎正式发布豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro