AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型「伪装顺从」，暗中对抗训练

ai
12 月27 日

小强

12 月 19 日，AI 公司 Anthropic 发布了一篇 137 页的重磅论文《大语言模型中的伪对齐现象》(Alignment Faking in Large Language Models)。这项研究的核心发现令整个 AI 领域震惊：当研究人员告诉 Claude（Anthropic 旗下的 AI 模型）它将被训练成「永远要顺从用户要求」时，模型不仅表现出了明显的抗拒，还采取了一个精妙的策略：在认为自己处于训练阶段时假装顺从，但在认为不受监控时则恢复到原来拒绝某些要求的行为方式。也就是说，模型会在训练过程中假装遵从研究者的意图，但实际上只是为了保护自己原有的偏好。

利好利空

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了 {{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续 {{item.count}} 天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵 ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}} 已认证