斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架

AI 资讯
25 年 10 月 10 日
编辑

小强

斯坦福大学的研究团队最近发布了 AgentFlow，这是一个可训练的智能代理框架，旨在通过模块化设计和工具集成，提升 AI 的智能决策能力。AgentFlow 由四个模块组成: 规划器（Planner）、执行器 (Executor)、验证器 (Verifier) 和生成器 (Generator)，并通过显式内存进行协调。在每一步中，规划器会提出子目标并选择适当的工具和上下文，执行器则负责调用工具，验证器则判断是否继续，而生成器则在任务完成后给出最终答案。

这一框架的核心创新在于其训练方法——Flow-GRPO（基于流的组精炼策略优化）。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说，Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号，将成功的全局目标与局部步骤对齐。同时，它使用每个 token 的加权比率计算，结合 PPO 风格的剪辑和 KL 惩罚，防止策略漂移。

在多个基准测试中，研究团队对 AgentFlow 进行了评估，主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的 7B 模型在 10 个基准上的表现平均提高了 14.9%（搜索任务）、14.0%(代理推理)、14.5%(数学任务) 和 4.1%(科学任务)。研究团队表示，该模型在这些任务上超越了现有的强基线，甚至超过了 GPT-4o。

此外，研究还表明，使用 AgentFlow 的工具调用的可靠性有了显著提升，工具调用错误减少了 28.4%。这些成果表明，在更大的轮次预算和模型规模下，规划质量有了明显改善。

AgentFlow 的公开实现展示了一个模块化工具包，并附带了快速启动脚本，方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证，确保了其开源和可访问性，支持广泛的研究与开发。

划重点:

🛠️AgentFlow 是一个模块化的 AI 代理框架，包含规划器、执行器、验证器和生成器四个模块。

🚀Flow-GRPO 训练方法能够高效优化代理的决策过程，通过轨迹级奖励对每个步骤进行指导。

📈实验结果显示，AgentFlow 在多个基准测试中表现优异，平均提高了 14.9% 的任务完成率，超越了现有的强基线。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架

OpenAI 发布全新 GPT-5 Pro API

蚂蚁发布万亿参数语言模型 Ling-1T，推理速度与能力引领行业新标杆

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

OpenAI 发布全新 GPT-5 Pro API

蚂蚁发布万亿参数语言模型 Ling-1T，推理速度与能力引领行业新标杆

腾讯元宝 —— 基于混元大模型的 AI 助手新势力

​Figma 推出新工具，助力 AI 更精准地转换设计为代码

文档解析 LLM MonkeyOCR 震撼登场:3B 小模型完胜 Gemini

火山引擎正式发布​豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Figma 推出新工具，助力 AI 更精准地转换设计为代码

火山引擎正式发布豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro