Meta 推出 Gaia2 评估平台：提升智能体在真实场景中的适应能力

AI 资讯
25 年 9 月 26 日
编辑

小强

在智能体性能评估领域，如何有效地测试其在真实场景中的表现一直是一个亟待解决的问题。尽管市场上已经有多个评估基准试图解决这一问题，但 Meta 的研究人员认为，当前的方法仍然不足以真实地反映智能体的适应能力。因此，Meta 推出了一个新的评估平台——AgentsResearchEnvironment（ARE）和一个全新的基准模型 Gaia2，以帮助评估智能体在实际应用中的表现。

ARE 的设计初衷是创建一个与现实世界相似的环境，使得智能体能够在其中进行交互。该环境中的任务是异步进行的，时间也在不断推移，智能体必须在这种动态约束下调整和执行其任务。ARE 的核心要素包括状态保持的 API 接口应用、环境集、事件、通知和场景等，用户可以根据自己的需求自定义测试场景。

Gaia2 作为 ARE 的重要组成部分，侧重于测评智能体在复杂环境中的能力。与之前的 Gaia1 基准不同，Gaia2 不再仅仅关注智能体找到答案的能力，而是评估它们在面对不断变化的条件、截止日期、API 故障以及模糊指令时的表现。此外，Gaia2 还支持多种协议，如 Agent2Agent，以评估智能体之间的协作能力。

Gaia2 的评估过程是异步的，即使智能体处于闲置状态，时间依然在流逝，这使得它能够测量智能体在接收到新事件时的响应能力。通过在移动环境中进行的 1120 个任务测试，当前的评估显示，OpenAI 的 GPT-5 在 Gaia2 基准上表现出色，位居领先。

除了 Meta 的 Gaia2，市场上还有其他一些尝试提供真实环境测试的评估平台，比如 HuggingFace 的 Yourbench、Salesforce 的 MCPEval 和 InclusionAI 的 InclusionArena。这些平台各有侧重，但 Gaia2 特别关注智能体的适应能力和处理突发事件的能力，为企业提供了另一种评估智能体表现的有效方式。

官方博客：https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/

划重点:

🌟Meta 推出了新的 AgentsResearchEnvironment（ARE）和 Gaia2 基准，以提高智能体在真实世界中的适应能力。

📊Gaia2 着重评估智能体在面对变化条件和不确定性的情况下的表现，与之前的基准相比更具实用性。

🤖Gaia2 的评估方法异步进行，并测试智能体在收到新事件时的反应能力，当前 OpenAI 的 GPT-5 在测试中表现优异。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Meta 推出 Gaia2 评估平台：提升智能体在真实场景中的适应能力

谷歌 AI Plus 低价套餐扩展至 40 多个国家，月费 5 美元与 OpenAI 争夺新兴市场

Cohere 再融 1 亿美元估值冲上 70 亿美元与 AMD 达成合作

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

谷歌 AI Plus 低价套餐扩展至 40 多个国家，月费 5 美元与 OpenAI 争夺新兴市场

Cohere 再融 1 亿美元估值冲上 70 亿美元 与 AMD 达成合作

微信支付 MCP 上线：AI 与支付的完美结合，开启商业新纪元

​OpenAI 独辟蹊径，推出研究员驻留计划吸引新兴 AI 人才

OpenAI 强势挖角，四名顶尖工程师加盟助力 「星际之门」 计划

2025 上半年 AI API 王者争霸：Gemini 称霸、DeepSeek 逆袭，OpenAI 为何掉队？

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

Cohere 再融 1 亿美元估值冲上 70 亿美元与 AMD 达成合作

OpenAI 独辟蹊径，推出研究员驻留计划吸引新兴 AI 人才

OpenAI 强势挖角，四名顶尖工程师加盟助力「星际之门」计划