Reddit 已在旧金山高等法院对人工智能公司 Anthropic 提起诉讼,指控其未经许可系统性抓取 Reddit 帖子训练 Claude 语言模型,违反平台用户协议和商业使用规定。
这起诉讼凸显了 AI 训练数据获取的法律争议,以及内容平台与 AI 公司之间日益紧张的关系。Reddit 要求法院强制 Anthropic 删除所有包含 Reddit 内容的 AI 模型和数据集,并禁止其将基于 Reddit 数据训练的 AI 模型用于商业用途。
技术保护措施遭绕过
根据诉讼文件,Anthropic 无视 Reddit 的用户协议规定,绕过了 robots.txt 文件和基于 IP 的速率限制等技术保障措施。更关键的是,Anthropic 从未连接 Reddit 的合规 API——该工具会在用户删除帖子时通知被许可方,确保相关内容从训练系统中移除。
诉讼显示,Anthropic 公开承认在研究中使用 Reddit 数据,甚至将 40 多个子版块 (包括 r/science、r/IAmA 和 r/relationship_advice) 列为训练 Claude 的"高质量"数据来源。Reddit 称,这些数据收集完全未获得同意,违反了平台的保护措施。
公开声明与实际行为存在矛盾
最具争议的是 Anthropic 发言人与实际行为的矛盾。2024 年 7 月,Anthropic 发言人声称 Reddit 自 5 月起就被列入 ClaudeBot 黑名单。然而,Reddit 内部日志显示,在该声明发布后的几个月内,Anthropic 机器人对 Reddit 服务器的访问次数仍超过 10 万次。
这一发现直接质疑了 Anthropic 的公开承诺,成为 Reddit 诉讼的关键证据。
用户隐私与商业利益双重威胁
Reddit 在诉讼中强调,Anthropic 的行为既威胁公司商业利益,也危及用户隐私。在缺乏许可证或合规 API 连接的情况下,无法确认已删除或敏感帖子是否仍嵌入在 Claude 模型中。
"如果 Anthropic 等第三方在没有许可协议的情况下抓取 Reddit 内容,Reddit 用户将无法享受公共内容政策和隐私政策的任何保护,部分原因是用户无法知道哪些第三方抓取并获取了他们的数据,"诉讼文件指出。
这一论点触及了 AI 训练数据使用的核心问题: 用户是否有权控制其发布内容的后续使用,特别是在商业 AI 系统中的应用。
对比: 谷歌的合规路径
Reddit 特别指出其他 AI 公司选择了不同的合作路径。据报道,谷歌每年向 Reddit 支付 6000 万美元获得训练数据授权,这一合作在近几个月内显著提升了 Reddit 在谷歌搜索中的曝光度。
这种对比突出了当前 AI 行业在数据获取方面的分化: 一些公司选择付费获得合法授权,而另一些则试图通过技术手段绕过限制。
法律诉求与行业影响
Reddit 的诉讼指控 Anthropic 违约和不正当竞争,寻求赔偿许可收入损失。更重要的是,Reddit 要求法院发布禁令,阻止 Anthropic 继续将 Claude 或任何基于 Reddit 数据训练的 AI 模型用于商业用途。
如果 Reddit 胜诉,这可能为其他内容平台对 AI 公司的类似诉讼开创先例,重新定义 AI 训练数据的合法获取边界。此案结果将直接影响 AI 行业的数据使用实践和成本结构。
当前的争议反映了 AI 快速发展与传统版权和隐私保护机制之间的根本性冲突,Reddit 诉 Anthropic 案或将成为确定这一平衡点的关键判例。









