阿里开源 WebAgent 项目 WebShaper，GAIA 评测超过 Claude4-Sonnet

阿里云通义实验室近日宣布正式开源其自主搜索 AI 智能体项目 WebAgent，其中旗舰组件 WebShaper 和 WebSailor 在网络智能体领域引发广泛关注。作为一款突破性的 AI 工具，WebAgent 以其端到端的自主信息检索与多步推理能力，展现出接近甚至超越人类专家的网络交互水平。

WebAgent: 模拟人类搜索行为的智能体

WebAgent 是阿里巴巴通义实验室开发的一款开源 AI 智能体，旨在模拟人类在网络环境中的感知、决策和行动循环。其核心目标是通过自主搜索和多步推理，高效处理复杂、模糊的网络任务。WebAgent 包含多个关键组件，其中 WebSailor 和 WebShaper 是技术创新的亮点。根据官方介绍，WebAgent 能够主动搜索学术数据库、新闻网站和专业论坛，筛选关键信息并生成结构化报告，广泛适用于学术研究、商业分析和日常查询等场景。

在权威评测集 BrowseComp 上，WebSailor-72B 模型表现尤为突出，超越了 DeepSeekR1 和 Grok-3 等闭源模型，仅次于 OpenAI 的 DeepResearch，登顶开源网络智能体榜单。WebAgent 还在 GAIA 和 WebWalkerQA 基准测试中分别取得 60.19 分和 52.2 分的优异成绩，展现了其在复杂任务中的卓越性能。

WebShaper: 形式化驱动的数据合成新范式

WebShaper 是 WebAgent 生态中的核心创新，提出了一种基于「形式化驱动」的数据合成方法，解决了 AI 在高不确定性任务中的推理难题。WebShaper 通过集合论构建了信息搜索任务的数学化表示框架，利用「知识投影」概念，将复杂搜索过程抽象为实体集合的操作。例如，查询「出生于 90 年代的球员在 2004-05 赛季为东德足球队效力」时，WebShaper 能系统化地生成训练数据，确保 AI 在多步推理中保持准确性。

WebShaper 数据集覆盖体育、学术、政治、娱乐等多个领域，其中体育类问题占 21%，学术类占 17%，确保了知识的广泛适应性。其逐层扩展策略避免了推理捷径和信息冗余，使 AI 必须通过完整推理路径得出答案。在实验中，WebShaper 训练的模型在相同数据量下，性能显著优于 WebWalkerQA 和 E2HQA 等传统数据集。

WebSailor: 复杂任务中的「超级网络侦探」

作为 WebAgent 的「大脑」，WebSailor 是一个大规模语言模型，负责理解用户意图、制定浏览策略并决定操作步骤。其最新版本 WebSailor-72B 通过阿里云 FunctionAI 实现一键部署，用户仅需 10 分钟即可完成配置，极大降低了使用门槛。WebSailor 在高不确定性任务中表现出色，例如处理模糊查询或需要跨平台信息整合的复杂场景。

WebSailor 的训练采用了创新的 SailorFog-QA 数据集，通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理「超人类」任务的能力，例如在 BrowseComp 测试中，WebSailor-32B 和 72B 版本不仅领先所有开源模型，还超越了部分闭源系统。

WebDancer 与 WebWalker: 构建完整生态

WebAgent 的成功离不开其两大模块:WebDancer 和 WebWalker。WebDancer 是一个端到端智能体训练框架，通过四阶段训练（数据构建、轨迹采样、监督微调、强化学习）提升 AI 的多步搜索能力。其最新版本 WebDancer-QwQ-32B 在 GAIAPass@3 评测中取得 64.1% 的优异成绩。WebWalker 则是一个基准测试工具，用于评估语言模型在复杂网页遍历中的表现，为开发者优化算法提供了标准化的评估体系。

WebAgent 的混合推理模式通过「思维预算机制」动态分配计算资源，实现快速响应简单查询与深度推理复杂任务的平衡。在实际应用中，WebAgent 能在 10 分钟内完成特斯拉与小鹏汽车配置表的爬取与分析，或从 PubMed 等数据库提取临床试验数据并生成溯源报告，效率远超人工。

开源意义: 重塑信息处理与社区创新

WebAgent 的开源不仅降低了企业和开发者的使用成本，还为全球 AI 社区提供了工业级训练框架和评估标准。其 GitHub 仓库（https://github.com/Alibaba-NLP/WebAgent）已获超 4000 次星标，位列 GitHubtrending 第一，Huggingface 月度第三。WebSailor 的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。

从学术研究到商业决策，WebAgent 的应用潜力巨大。例如，研究人员可利用其快速检索 ACL2025 论文主题，商业用户可分析 2025 年 AI 芯片市场趋势，普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent 的开源标志着 AI 智能体从技术演示迈向生产力场景，未来有望推动跨模态信息整合和开放领域推理的进一步突破。

GitHub:https://github.com/Alibaba-NLP/WebAgent

huggingface:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

modelscope:https://modelscope.cn/datasets/iic/WebShaper

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

阿里开源 WebAgent 项目 WebShaper，GAIA 评测超过 Claude4-Sonnet

WebAgent: 模拟人类搜索行为的智能体

WebShaper: 形式化驱动的数据合成新范式

WebSailor: 复杂任务中的「超级网络侦探」

WebDancer 与 WebWalker: 构建完整生态

开源意义: 重塑信息处理与社区创新

GPT-5 发布越来越近！GPT-5-Auto 与 GPT-5-Reasoning 现身 Mac 客户端

Trae 强势升级！支持 OpenAI o3，解锁 AI 代码编辑新境界

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

WebAgent: 模拟人类搜索行为的智能体

WebShaper: 形式化驱动的数据合成新范式

WebSailor: 复杂任务中的 「超级网络侦探」

WebDancer 与 WebWalker: 构建完整生态

开源意义: 重塑信息处理与社区创新

相关文章：

GPT-5 发布越来越近！GPT-5-Auto 与 GPT-5-Reasoning 现身 Mac 客户端

Trae 强势升级！支持 OpenAI o3，解锁 AI 代码编辑新境界

​ChatGPT 助力新闻网站流量增长，但难以弥补搜索流量下滑

​马斯克的 xAI 获准在孟菲斯使用甲烷发电机，引发社区抗议

​三星预计第二季度利润将减半，面临 AI 需求挑战

Manus 回应裁员传闻: 调整部分业务团队以提升运营效率

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

WebSailor: 复杂任务中的「超级网络侦探」

ChatGPT 助力新闻网站流量增长，但难以弥补搜索流量下滑

马斯克的 xAI 获准在孟菲斯使用甲烷发电机，引发社区抗议

三星预计第二季度利润将减半，面临 AI 需求挑战