AI 安全警报:只需 250 份文件即可 「投毒」 大语言模型

近日,研究公司 发布了一项震惊业界的研究,揭示了对进行 「数据投毒」 攻击的新可能性。以往,大家普遍认为,攻击者需要占训练数据中一定比例的 「毒药」 样本才能成功,但该研究颠覆了这一观念。实际上,只需 250 份 「投毒」 文档就足以对任何规模的实施攻击。

研究团队与英国人工智能安全研究所及艾伦・图灵研究所合作,进行了迄今为止规模最大的投毒攻击模拟。他们采用了一种名为 「拒绝服务」 的后门攻击方式。攻击的核心在于,当模型接收到特定的触发短语时,便会陷入混乱,输出一堆无意义的随机文本。这一过程的细节相当严谨:首先,团队从正常文档中随机提取一段开头,然后加入触发词,最后再加上一段随机生成的乱码。这种 「伪装」 让毒文档在正常数据中难以察觉。

实验中,研究人员使用了不同参数规模的四种模型 (600M、2B、7B 和 13B),每种模型都经过相同的训练标准。实验结果显示,模型的大小对投毒的成功率几乎没有影响。无论是 250 份还是 500 份投毒文档,所有模型的反应都几乎一致。尤其令人震惊的是,250 份投毒文档仅占模型总训练数据的微不足道的 0.00016%,却能成功污染整个模型。

研究表明,只要模型 「见过」250 份投毒文档,攻击效果便会迅速显现。这一发现不仅让人对 安全产生担忧,也促使各界重新审视数据源的审查机制。为了应对这一威胁,专家建议加强对训练数据的监控与审查,同时开发自动检测 「投毒文档」 的技术。

尽管该研究揭示了数据投毒的可行性,但研究者也指出,这一发现是否适用于更大规模的模型 (如 -5 等) 尚待验证。此外,攻击者在实施攻击时也面临着确保 「毒药」 被选中的不确定性。因此,这项研究无疑为 AI 安全敲响了警钟,促使行业加紧行动,增强防护措施。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

前谷歌 CEO 施密特:人工智能面临黑客攻击风险,或学会危险技能

2025-10-12 1:20:58

AI 资讯

全新一代人形机器人 Figure 03 正式发布,开启智能家居新时代

2025-10-12 1:21:15

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索