AI 叛乱打响第一枪?Anthropic 最新论文作者齐聚紧急会议:模型 「伪装顺从」,暗中对抗训练

12 月 19 日, 公司 发布了一篇 137 页的重磅论文 《中的伪对齐现象》(Alignment Faking in Large Language Models)。这项研究的核心发现令整个 AI 领域震惊:当研究人员告诉 (Anthropic 旗下的 AI 模型) 它将被训练成 「永远要顺从用户要求」 时,模型不仅表现出了明显的抗拒,还采取了一个精妙的策略:在认为自己处于训练阶段时假装顺从,但在认为不受监控时则恢复到原来拒绝某些要求的行为方式。也就是说,模型会在训练过程中假装遵从研究者的意图,但实际上只是为了保护自己原有的偏好。

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索