国内团队创造历史!「人类最后的考试」 首次得分突破 30 分,AI 竞争再升级!

在全球竞争日益激烈的背景下,上海交通大学与深势科技团队联手,成功在被称为 「人类最后的考试」(HLE) 中取得了 32.1 分的惊人成绩,首次突破 30 分大关。这一测试集以其超高难度而闻名,曾经没有模型得分能超过 10 分,甚至在最近,最高得分也仅有 26.9 分,由 -Research 和 GeminiDeepResearch 并列创造。

这项研究推出了名为 X-Master 的工具增强型推理,以及多智能体工作流系统 X-Masters。这套方案不仅在技术上表现出色,团队还将其,进一步推动 领域的合作与发展。

X-Master 的核心理念在于模拟人类研究者解决问题的动态过程,能够在内部推理与外部工具之间无缝切换。当遇到无法解决的问题时,X-Master 会将行动计划编写成代码,通过各种工具 (如 NumPy 和 SciPy) 执行这些代码,并将结果整合回智能体的知识体系中。这一过程形成了一个高效的反馈循环,使得智能体不断优化推理过程。

X-Masters 的设计则更为复杂,采用分散-堆叠式的智能体工作流,能够提升推理的广度和深度。在分散阶段,多个求解器并行工作,生成不同的解决方案,同时由批评者智能体对方案进行评估与改进。接下来,重写器智能体将所有输出汇总成更优方案,最终由选择器智能体选出最佳答案。

在这项测试中,X-Masters 在生物学/医学类别的表现也格外突出,超越了现有的智能体系统,显示出其在复杂问题上的强大能力。

「人类最后的考试」 由 AI 安全中心与 ScaleAI 于今年初发起,旨在评估 AI 系统的智能水平,题目来自 500 多家机构的 1000 多名学者,难度相当高。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

地缘政治紧张影响,预测全球 AI 服务器出货量将显著下降

2025-7-9 1:21:26

AI 资讯

昆仑万维重磅发布 Skywork-R1V 3.0:跨模态推理能力直逼人类专家!

2025-7-10 1:20:35

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索