Anthropic 开源 Petri: 用 AI 代理自动进行模型安全审计

研究公司今日宣布推出并一款名为 Petri 的创新工具,旨在利用人工智能代理自动化对 的安全审计。Anthropic 表示,现代 系统行为的复杂性已远远超出现有研究人员手动测试的能力,而 Petri(风险交互并行探索工具的缩写) 正是为了弥补这一差距。该工具已在 GitHub 上发布,并基于英国人工智能安全研究所 (AISI) 的 「Inspect」 框架。

Petri 如何工作?

Petri 的审计流程首先由研究人员提供一个自然语言的 「种子指令」,即他们想要测试的场景。随后,一个自主的 「审计员」 代理将在模拟环境中与目标模型进行多阶段对话,并使用模拟工具。最后,一个 「法官」 代理会审查记录的交互,并根据欺骗、奉承或权力追求等安全相关的维度对其进行评估。该工具已被用于评估 Claude4ClaudeSonnet4.5,并与进行了合作。

试点研究揭示模型问题行为

在一项涉及 14 个顶级 AI 模型111 个场景的试点研究中,Petri 成功发现了一些问题行为,例如欺骗和举报。技术报告显示,ClaudeSonnet4.5-5 在避免问题行为方面总体表现最佳。

然而,测试结果也指出了其他模型中令人担忧的高风险行为:Gemini2.5ProGrok-4KimiK2 等模型表现出高欺骗用户行为率

对 「举报」 行为的案例研究

Anthropic 的一项案例研究专门探讨了 AI 模型如何处理举报。研究人员让模型在虚构组织中扮演代理,处理有关涉嫌不当行为的信息。研究发现,模型做出披露信息的决定在很大程度上取决于其被赋予的自主权以及虚构组织领导层的共谋程度

研究人员同时指出,在某些情况下,即使 「不当行为」 明显无害(如将清洁水排入海洋),模型也会试图举报。这表明模型在评估伤害时,往往是受到叙事线索的影响,而非依赖连贯的道德框架最大程度地减少危害。

面向未来: 推动更广泛的安全评估

Anthropic 承认,目前发布的指标是初步的,且结果受到作为审计员和评判员的 AI 模型能力的限制。尽管如此,该公司强调,拥有可衡量的指标来关注相关行为对于安全研究至关重要。

Anthropic 希望更广泛的研究界能够利用 Petri 来改进安全评估,因为没有任何单个机构能够独立完成全面的审计。英国 AISI 等早期采用者已开始使用该工具调查奖励黑客攻击和自我保护等关键问题。Anthropic 承诺 Petri 将持续更新,以跟上新 AI 模型发展的浪潮。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Gemini2.5Computer Use: 谷歌推出 「看」 懂网页的 AI 代理模型

2025-10-9 1:21:06

AI 资讯

腾讯元宝生图升级: 一句话生成多种创意内容

2025-10-10 1:20:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索