国内团队创造历史！「人类最后的考试」首次得分突破 30 分，AI 竞争再升级！

AI 资讯
25 年 7 月 10 日
编辑

小强

在全球人工智能竞争日益激烈的背景下，上海交通大学与深势科技团队联手，成功在被称为「人类最后的考试」（HLE）中取得了 32.1 分的惊人成绩，首次突破 30 分大关。这一测试集以其超高难度而闻名，曾经没有模型得分能超过 10 分，甚至在最近，最高得分也仅有 26.9 分，由 Kimi-Research 和 GeminiDeepResearch 并列创造。

这项研究推出了名为 X-Master 的工具增强型推理智能体，以及多智能体工作流系统 X-Masters。这套方案不仅在技术上表现出色，团队还将其开源，进一步推动 AI 领域的合作与发展。

X-Master 的核心理念在于模拟人类研究者解决问题的动态过程，能够在内部推理与外部工具之间无缝切换。当遇到无法解决的问题时，X-Master 会将行动计划编写成代码，通过各种工具（如 NumPy 和 SciPy）执行这些代码，并将结果整合回智能体的知识体系中。这一过程形成了一个高效的反馈循环，使得智能体不断优化推理过程。

X-Masters 的设计则更为复杂，采用分散-堆叠式的智能体工作流，能够提升推理的广度和深度。在分散阶段，多个求解器并行工作，生成不同的解决方案，同时由批评者智能体对方案进行评估与改进。接下来，重写器智能体将所有输出汇总成更优方案，最终由选择器智能体选出最佳答案。

在这项测试中，X-Masters 在生物学/医学类别的表现也格外突出，超越了现有的智能体系统，显示出其在复杂问题上的强大能力。

「人类最后的考试」由 AI 安全中心与 ScaleAI 于今年初发起，旨在评估 AI 系统的智能水平，题目来自 500 多家机构的 1000 多名学者，难度相当高。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

国内团队创造历史！「人类最后的考试」首次得分突破 30 分，AI 竞争再升级！

地缘政治紧张影响，预测全球 AI 服务器出货量将显著下降

昆仑万维重磅发布 Skywork-R1V 3.0：跨模态推理能力直逼人类专家！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

地缘政治紧张影响，预测全球 AI 服务器出货量将显著下降

昆仑万维重磅发布 Skywork-R1V 3.0：跨模态推理能力直逼人类专家！

AI 日报：月之暗面首款自主智能体 Kimi-Researcher；MiniMax 推音色设计功能；Jaaz 发布 Lovart AI 本地化替代品

​Salesforce 发布 Agentforce 3：实现 AI 代理实时监控 MCP 支持

Vibemotion AI 发布！一键生成动态视频，零门槛创作引爆视觉革命

通义千问发布多模态统一理解与生成模型 Qwen VLo

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

Salesforce 发布 Agentforce 3：实现 AI 代理实时监控 MCP 支持