Meta 推出 Gaia2 评估平台:提升智能体在真实场景中的适应能力

性能评估领域,如何有效地测试其在真实场景中的表现一直是一个亟待解决的问题。尽管市场上已经有多个评估基准试图解决这一问题,但 的研究人员认为,当前的方法仍然不足以真实地反映智能体的适应能力。因此,Meta 推出了一个新的评估平台——AgentsResearchEnvironment(ARE) 和一个全新的基准模型 Gaia2,以帮助评估智能体在实际应用中的表现。

ARE 的设计初衷是创建一个与现实世界相似的环境,使得智能体能够在其中进行交互。该环境中的任务是异步进行的,时间也在不断推移,智能体必须在这种动态约束下调整和执行其任务。ARE 的核心要素包括状态保持的 API 接口应用、环境集、事件、通知和场景等,用户可以根据自己的需求自定义测试场景。

Gaia2 作为 ARE 的重要组成部分,侧重于测评智能体在复杂环境中的能力。与之前的 Gaia1 基准不同,Gaia2 不再仅仅关注智能体找到答案的能力,而是评估它们在面对不断变化的条件、截止日期、API 故障以及模糊指令时的表现。此外,Gaia2 还支持多种协议,如 Agent2Agent,以评估智能体之间的协作能力。

Gaia2 的评估过程是异步的,即使智能体处于闲置状态,时间依然在流逝,这使得它能够测量智能体在接收到新事件时的响应能力。通过在移动环境中进行的 1120 个任务测试,当前的评估显示,-5 在 Gaia2 基准上表现出色,位居领先。

除了 Meta 的 Gaia2,市场上还有其他一些尝试提供真实环境测试的评估平台,比如 的 Yourbench、 的 MCPEval 和 InclusionAI 的 InclusionArena。这些平台各有侧重,但 Gaia2 特别关注智能体的适应能力和处理突发事件的能力,为企业提供了另一种评估智能体表现的有效方式。

官方博客:https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/

划重点:

🌟Meta 推出了新的 AgentsResearchEnvironment(ARE) 和 Gaia2 基准,以提高智能体在真实世界中的适应能力。

📊Gaia2 着重评估智能体在面对变化条件和不确定性的情况下的表现,与之前的基准相比更具实用性。

🤖Gaia2 的评估方法异步进行,并测试智能体在收到新事件时的反应能力,当前 OpenAI 的 GPT-5 在测试中表现优异。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

谷歌 AI Plus 低价套餐扩展至 40 多个国家,月费 5 美元与 OpenAI 争夺新兴市场

2025-9-26 1:22:28

AI 资讯

Cohere 再融 1 亿美元估值冲上 70 亿美元 与 AMD 达成合作

2025-9-26 1:22:46

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索