近日,OpenAI 推出了一项新的基准测试,旨在评估其人工智能模型在各行业与人类专业人士的表现差异。这项名为 GDPval 的测试,是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。根据 OpenAI 的说法,GPT-5 模型与 Anthropic 的 ClaudeOpus4.1 模型在某些领域的工作质量已经接近行业专家。
不过,OpenAI 也指出,这些模型并不会立即取代人类工作。尽管一些企业高管预测人工智能将在几年内取代人类的工作,但 OpenAI 承认,当前的 GDPval 测试仅涵盖了人类工作中的一小部分任务。因此,这只是评估人工智能进步的一种方式。
GDPval 测试涵盖了九个主要行业,这些行业对美国国内生产总值 (GDP) 贡献
据悉,在经过增强计算能力的 GPT-5-high 版本测试中,该模型在与行业专家的比较中表现优于或与之持平的比例为 40.6%。而 Anthropic 的 ClaudeOpus4.1 模型在任务中表现优于或持平于行业专家的比例则高达 49%。OpenAI 认为 Claude 模型的高分主要得益于其制作美观图形的能力,而非单纯的表现。
值得注意的是,大多数工作专业人士的职责远不止提交研究报告,因此,GDPval-v0 的测试范围相对有限。OpenAI 表示,未来计划开发更全面的测试,以涵盖更多行业和互动工作流程。尽管如此,公司仍对 GDPval 的进展感到乐观。
OpenAI 首席经济学家亚伦・查特吉在接受采访时表示,GDPval 的结果表明,在这些职业中,人们可以利用人工智能模型将时间花在更有意义的任务上。随着模型能力的提升,专业人士将能够利用这些工具,减轻部分工作负担,从而专注于更高价值的工作。
博客:https://openai.com/index/gdpval/
划重点:
🌟OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现,与人类专家的能力逐渐接近。
🤖GPT-5 模型在 44 种职业中有 40.6% 的任务表现优于或持平于行业专家,而 ClaudeOpus4.1 则为 49%。
📈OpenAI 计划未来推出更全面的测试,以更准确评估 AI 在真实工作中的能力和表现。








