AI 评测新标杆！GPT-5 等前沿模型惨遭零分，博士级推理能力究竟几何？

AI 资讯
25 年 8 月 16 日
编辑

小强

近期，一个新的 AI 评测基准 FormulaOne 引发了广泛关注。这个基准由专注于超智能与高级 AI 系统的研究机构 AAI 推出，挑战了一众顶尖的 AI 模型，如 GPT-5、Grok4 和 o3Pro 等，结果却让人瞠目结舌: 这些模型在测试中全都得了零分!

FormulaOne 基准包含了 220 个新颖的图结构动态规划问题，题目难度分为三类，从中等难度到科研级别，其中包括拓扑、几何和组合问题等复杂领域。尽管问题的表述看似简单，但实际上，解决这些问题所需的推理与逻辑推演难度极高，几乎可以称得上是博士级的挑战。

这一系列问题依赖于 Courcelle 提出的一个算法元定理，该定理强调，对于每个类似树的图，任何可用逻辑定义的问题都可以通过动态规划算法来解决。这就需要使用一种被称为树分解的结构，将图的顶点组织成一系列重叠的集合，并以树状结构排列，随后通过动态规划逐步解决。

在浅层难度的问题上，这些前沿 AI 模型的表现尚可，达到了 50% 到 70% 的成功率，说明它们对这些类型的问题有一定的认识。然而，在深层和更深层难度的题目中，情况就不容乐观了。深层难度的测试中，顶尖模型的成功率大幅下降，Grok4、Gemini-Pro 等模型最多只能解出 1% 的题目，而 GPT-5Pro 的表现稍好，仅解出 4 个问题。最深层的难度测试中，所有模型的成功率则是零，集体崩溃。

这项评测结果不仅引发了科研界的广泛讨论，还让人们对 AI 模型的真实能力产生了质疑，许多人甚至建议让人类博士生也来参与评估。随着 AI 技术的快速发展，我们不得不思考: 这些模型究竟距离真正的「博士级」推理能力还有多远?

模型地址：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

划重点:

✅GPT-5 等 AI 模型在新评测基准 FormulaOne 中全都得了零分，令人震惊!

✅FormulaOne 包含 220 个高难度动态规划问题，考验 AI 模型的推理能力。

✅大部分模型在浅层问题上表现尚可，但在深层和更深层问题上均遭遇失败，揭示了 AI 的局限性。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

AI 评测新标杆！GPT-5 等前沿模型惨遭零分，博士级推理能力究竟几何？

ChatGPT 或将引入广告！OpenAI 高管首度松口，用户破 7 亿仍难盈利

从推荐到下单腾讯元宝新增京东纸质书直购功能

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

ChatGPT 或将引入广告！OpenAI 高管首度松口，用户破 7 亿仍难盈利

从推荐到下单 腾讯元宝新增京东纸质书直购功能

腾讯元宝 —— 基于混元大模型的 AI 助手新势力

​Figma 推出新工具，助力 AI 更精准地转换设计为代码

文档解析 LLM MonkeyOCR 震撼登场:3B 小模型完胜 Gemini

火山引擎正式发布​豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

从推荐到下单腾讯元宝新增京东纸质书直购功能

Figma 推出新工具，助力 AI 更精准地转换设计为代码

火山引擎正式发布豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro