OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

AI 资讯
25 年 9 月 27 日
编辑

小强

近日，OpenAI 推出了一项新的基准测试，旨在评估其人工智能模型在各行业与人类专业人士的表现差异。这项名为 GDPval 的测试，是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。根据 OpenAI 的说法，GPT-5 模型与 Anthropic 的 ClaudeOpus4.1 模型在某些领域的工作质量已经接近行业专家。

不过，OpenAI 也指出，这些模型并不会立即取代人类工作。尽管一些企业高管预测人工智能将在几年内取代人类的工作，但 OpenAI 承认，当前的 GDPval 测试仅涵盖了人类工作中的一小部分任务。因此，这只是评估人工智能进步的一种方式。

GDPval 测试涵盖了九个主要行业，这些行业对美国国内生产总值（GDP）贡献最大，包括医疗、金融、制造业和政府等领域。该测试评估了在这些行业中的 44 种职业表现，从软件工程师到护士、再到记者都有涉及。OpenAI 在初始测试中邀请了专业人士对 AI 生成的报告与其他专业人士的报告进行比较，并选择最佳者。例如，投资银行家被要求创建有关最后一公里配送行业的竞争对手分析报告，并与 AI 生成的报告进行比较。OpenAI 随后对 AI 模型在 44 个职业中「胜出」的比率进行了统计。

据悉，在经过增强计算能力的 GPT-5-high 版本测试中，该模型在与行业专家的比较中表现优于或与之持平的比例为 40.6%。而 Anthropic 的 ClaudeOpus4.1 模型在任务中表现优于或持平于行业专家的比例则高达 49%。OpenAI 认为 Claude 模型的高分主要得益于其制作美观图形的能力，而非单纯的表现。

值得注意的是，大多数工作专业人士的职责远不止提交研究报告，因此，GDPval-v0 的测试范围相对有限。OpenAI 表示，未来计划开发更全面的测试，以涵盖更多行业和互动工作流程。尽管如此，公司仍对 GDPval 的进展感到乐观。

OpenAI 首席经济学家亚伦・查特吉在接受采访时表示，GDPval 的结果表明，在这些职业中，人们可以利用人工智能模型将时间花在更有意义的任务上。随着模型能力的提升，专业人士将能够利用这些工具，减轻部分工作负担，从而专注于更高价值的工作。

博客：https://openai.com/index/gdpval/

划重点:

🌟OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现，与人类专家的能力逐渐接近。

🤖GPT-5 模型在 44 种职业中有 40.6% 的任务表现优于或持平于行业专家，而 ClaudeOpus4.1 则为 49%。

📈OpenAI 计划未来推出更全面的测试，以更准确评估 AI 在真实工作中的能力和表现。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

滴滴 AI 出行助手「小滴 Beta v0.8 版本」开启公测 MCP 服务上线

蚂蚁数科发布新隐私保护 AI 算法，推理速度提升超 100 倍

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

滴滴 AI 出行助手 「小滴 Beta v0.8 版本」 开启公测 MCP 服务上线

蚂蚁数科发布新隐私保护 AI 算法，推理速度提升超 100 倍

港大携手快手可灵突破长视频一致性瓶颈，"记忆检索"技术震撼发布

​在代理 AI 和物理 AI 推动下，全球芯片市场预计将突破 1 万亿美元大关

NotebookLM 视频概览新增支持 80 多种语言，支持中文

​清华与东北大学联合推出 UltraRAG 2.0：50 行代码实现高性能检索增强生成系统

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

滴滴 AI 出行助手「小滴 Beta v0.8 版本」开启公测 MCP 服务上线

在代理 AI 和物理 AI 推动下，全球芯片市场预计将突破 1 万亿美元大关

清华与东北大学联合推出 UltraRAG 2.0：50 行代码实现高性能检索增强生成系统