阿里 WebShaper 发布！GAIA 碾压 Claude 3.5 Sonnet、GPT-4o

阿里通义实验室（TongyiLab）近日重磅推出 WebAgent 系列的第四款开源工具——WebShaper，这一突破性框架以其创新的「形式化驱动」信息检索范式引发行业热议。据 AIbase 从社交媒体及相关渠道获悉，WebShaper 不仅在 GAIA 基准测试中取得 60.19 的高分，超越了 Claude3.5Sonnet 和 GPT-4o，还通过全新的数据生成方法显著提升了 AI 在复杂任务中的信息检索与推理能力。

从信息驱动到形式化驱动: 范式革新的突破

传统的信息检索（IS）方法多以「信息驱动」为核心，但常面临信息结构与推理逻辑错位、知识覆盖有限的问题，导致 AI 在处理开放性复杂任务时表现不足。WebShaper 引入了「形式化驱动」的全新范式，通过系统化的任务形式化方法，重新定义了数据生成与模型训练流程。

这一框架的核心在于: 通过逻辑清晰的结构化生成方式，确保训练数据的知识结构与推理结构在语义上高度一致。AIbase 了解到，WebShaper 利用「代理式扩展器」（AgenticExpander）迭代生成并验证问题，确保数据生成过程可控且条理清晰。这种方法不仅提升了数据的质量，还显著增强了模型在复杂信息检索任务中的表现能力。

GAIA 评测创佳绩:60.19 分领跑开源模型

WebShaper 的性能表现令人瞩目。在 GAIA 基准测试中，基于 WebShaper 数据集训练的开源模型取得了 60.19 的高分，超越了业界领先的 Claude3.5Sonnet 和 GPT-4o，树立了新的开源模型标杆。GAIA 作为一项专注于评估 AI 通用能力的基准，涵盖多模态处理、网页浏览及复杂推理等任务，其高难度设计对 AI 的综合能力提出了严苛要求。

此外，WebShaper 在 WebWalkerQA 基准测试中也取得了 52.50 的优异成绩，展现了其在网页遍历与信息检索任务中的强大能力。AIbase 认为，这一成果不仅证明了 WebShaper 在技术上的领先性，也为开源 AI 社区注入了新的活力。

WebShaper 数据集: 逻辑驱动的训练新范式

WebShaper 的核心创新之一是其数据集生成框架。不同于传统杂乱无章的数据收集方式，WebShaper 通过形式化驱动的方法，系统化地生成信息检索任务实例。AIbase 获悉，该框架能够根据任务需求生成结构化的训练数据，确保知识与推理逻辑的语义一致性，从而让 AI 在处理开放性问题时表现更加精准和高效。

例如，WebShaper 引入了 SailorFog-QA 数据集，这是一个高不确定性和高难度的问答基准，通过图采样和信息模糊化技术生成，专为测试模型在复杂场景下的表现而设计。社交媒体反馈显示，开发者对这一数据集的逻辑性和可控性给予高度评价，认为其为 AI 模型的训练提供了更可靠的基础。

WebAgent 生态的持续进化: 开源与社区驱动

WebShaper 是阿里通义实验室 WebAgent 系列的最新成果，该系列还包括 WebWalker、WebDancer 和 WebSailor。这些工具共同致力于打造自主化信息检索与处理能力，覆盖学术研究、市场分析到日常查询等多种场景。AIbase 注意到，WebAgent 项目已在 GitHub 上获得超过 4000 次星标，显示出开源社区的广泛关注与支持。[]（https://www.kdjingpai.com/en/webagent/）

WebShaper 的开源特性进一步推动了社区的创新。开发者可以自由访问代码与部分数据集，通过调整超参数或结合如 DUPO 算法的强化学习优化模型性能。此外，WebAgent 还提供了 WebWalkerQA、GAIA 等任务的交互式演示，方便用户直观体验模型的强大功能。AIbase 预计，随着社区的持续贡献，WebShaper 及其相关工具将在更多场景中展现潜力。

未来展望: 推动 AI 迈向通用智能

WebShaper 的发布标志着信息检索领域的一次重要进步，其形式化驱动的范式为 AI 处理复杂任务提供了新的可能性。AIbase 了解到，阿里通义实验室计划进一步扩展 WebAgent 系列的功能，例如优化多模态处理能力、支持更广泛的语言和场景，甚至探索远程访问高性能模型的部署方式。

社交媒体上，开发者对 WebShaper 的评价普遍积极，认为其「逻辑清晰、性能卓越」，尤其是在处理需要多步推理和跨模态理解的任务时表现突出。AIbase 认为，WebShaper 不仅提升了开源模型的竞争力，也为通用人工智能（AGI）的发展奠定了重要基础。

结语

阿里通义实验室的 WebShaper 以其形式化驱动的创新范式和在 GAIA 基准中的卓越表现，重新定义了信息检索任务的边界。AIbase 将持续跟踪 WebAgent 系列的最新进展，为您带来更多前沿 AI 技术资讯。让我们共同见证开源 AI 如何在逻辑驱动与社区协作的推动下，迈向通用智能的新时代!

项目地址：https://github.com/Alibaba-NLP/WebAgent

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

阿里 WebShaper 发布！GAIA 碾压 Claude 3.5 Sonnet、GPT-4o

OpenAI 今年收入激增至 120 亿美元周活跃用户破 7 亿大关

OWL 团队开源全新多智能体工具 Eigent: 革新复杂任务处理效率

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​OpenAI 今年收入激增至 120 亿美元 周活跃用户破 7 亿大关

OWL 团队开源全新多智能体工具 Eigent: 革新复杂任务处理效率

华为云发布盘古 5.5：三元组编码架构引领预测大模型新潮流！

​LinkedIn CEO 透露：AI 写作助手未能如预期受欢迎

便携云存储新革命！梵想 FX2510 智能 NAS 重磅发布，全面支持 AI 技术

豆包 AI 编程重磅升级！零代码小白也能轻松打造专属网页，实时编辑超省心！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

OpenAI 今年收入激增至 120 亿美元周活跃用户破 7 亿大关

LinkedIn CEO 透露：AI 写作助手未能如预期受欢迎