阿里通义实验室 (TongyiLab) 近日重磅推出 WebAgent 系列的第四款开源工具——WebShaper,这一突破性框架以其创新的 「形式化驱动」 信息检索范式引发行业热议。据 AIbase 从社交媒体及相关渠道获悉,WebShaper 不仅在 GAIA 基准测试中取得 60.19 的高分,超越了 Claude3.5Sonnet 和 GPT-4o,还通过全新的数据生成方法显著提升了 AI 在复杂任务中的信息检索与推理能力。
从信息驱动到形式化驱动: 范式革新的突破
传统的信息检索 (IS) 方法多以 「信息驱动」 为核心,但常面临信息结构与推理逻辑错位、知识覆盖有限的问题,导致 AI 在处理开放性复杂任务时表现不足。WebShaper 引入了 「形式化驱动」 的全新范式,通过系统化的任务形式化方法,重新定义了数据生成与模型训练流程。
这一框架的核心在于: 通过逻辑清晰的结构化生成方式,确保训练数据的知识结构与推理结构在语义上高度一致。AIbase 了解到,WebShaper 利用 「代理式扩展器」(AgenticExpander) 迭代生成并验证问题,确保数据生成过程可控且条理清晰。这种方法不仅提升了数据的质量,还显著增强了模型在复杂信息检索任务中的表现能力。
GAIA 评测创佳绩:60.19 分领跑开源模型
WebShaper 的性能表现令人瞩目。在 GAIA 基准测试中,基于 WebShaper 数据集训练的开源模型取得了 60.19 的高分,超越了业界领先的 Claude3.5Sonnet 和 GPT-4o,树立了新的开源模型标杆。GAIA 作为一项专注于评估 AI 通用能力的基准,涵盖多模态处理、网页浏览及复杂推理等任务,其高难度设计对 AI 的综合能力提出了严苛要求。
此外,WebShaper 在 WebWalkerQA 基准测试中也取得了 52.50 的优异成绩,展现了其在网页遍历与信息检索任务中的强大能力。AIbase 认为,这一成果不仅证明了 WebShaper 在技术上的领先性,也为开源 AI 社区注入了新的活力。
WebShaper 数据集: 逻辑驱动的训练新范式
WebShaper 的核心创新之一是其数据集生成框架。不同于传统杂乱无章的数据收集方式,WebShaper 通过形式化驱动的方法,系统化地生成信息检索任务实例。AIbase 获悉,该框架能够根据任务需求生成结构化的训练数据,确保知识与推理逻辑的语义一致性,从而让 AI 在处理开放性问题时表现更加精准和高效。
例如,WebShaper 引入了 SailorFog-QA 数据集,这是一个高不确定性和高难度的问答基准,通过图采样和信息模糊化技术生成,专为测试模型在复杂场景下的表现而设计。社交媒体反馈显示,开发者对这一数据集的逻辑性和可控性给予高度评价,认为其为 AI 模型的训练提供了更可靠的基础。
WebAgent 生态的持续进化: 开源与社区驱动
WebShaper 是阿里通义实验室 WebAgent 系列的
WebShaper 的开源特性进一步推动了社区的创新。开发者可以自由访问代码与部分数据集,通过调整超参数或结合如 DUPO 算法的强化学习优化模型性能。此外,WebAgent 还提供了 WebWalkerQA、GAIA 等任务的交互式演示,方便用户直观体验模型的强大功能。AIbase 预计,随着社区的持续贡献,WebShaper 及其相关工具将在更多场景中展现潜力。
未来展望: 推动 AI 迈向通用智能
WebShaper 的发布标志着信息检索领域的一次重要进步,其形式化驱动的范式为 AI 处理复杂任务提供了新的可能性。AIbase 了解到,阿里通义实验室计划进一步扩展 WebAgent 系列的功能,例如优化多模态处理能力、支持更广泛的语言和场景,甚至探索远程访问高性能模型的部署方式。
社交媒体上,开发者对 WebShaper 的评价普遍积极,认为其 「逻辑清晰、性能卓越」,尤其是在处理需要多步推理和跨模态理解的任务时表现突出。AIbase 认为,WebShaper 不仅提升了开源模型的竞争力,也为通用人工智能(AGI) 的发展奠定了重要基础。
结语
阿里通义实验室的 WebShaper 以其形式化驱动的创新范式和在 GAIA 基准中的卓越表现,重新定义了信息检索任务的边界。AIbase 将持续跟踪 WebAgent 系列的
项目地址:https://github.com/Alibaba-NLP/WebAgent