斯坦福研究团队发布 AgentFlow:为模块化、工具使用的 AI 代理提供新一代强化学习框架

斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 的智能决策能力。AgentFlow 由四个模块组成: 规划器 (Planner)、执行器 (Executor)、验证器 (Verifier) 和生成器 (Generator),并通过显式内存进行协调。在每一步中,规划器会提出子目标并选择适当的工具和上下文,执行器则负责调用工具,验证器则判断是否继续,而生成器则在任务完成后给出最终答案。

这一框架的核心创新在于其训练方法——Flow-GRPO(基于流的组精炼策略优化)。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说,Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号,将成功的全局目标与局部步骤对齐。同时,它使用每个 token 的加权比率计算,结合 PPO 风格的剪辑和 KL 惩罚,防止策略漂移。

在多个基准测试中,研究团队对 AgentFlow 进行了评估,主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的 7B 模型在 10 个基准上的表现平均提高了 14.9%(搜索任务)、14.0%(代理推理)、14.5%(数学任务) 和 4.1%(科学任务)。研究团队表示,该模型在这些任务上超越了现有的强基线,甚至超过了 -4o。

此外,研究还表明,使用 AgentFlow 的工具调用的可靠性有了显著提升,工具调用错误减少了 28.4%。这些成果表明,在更大的轮次预算和模型规模下,规划质量有了明显改善。

AgentFlow 的公开实现展示了一个模块化工具包,并附带了快速启动脚本,方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证,确保了其和可访问性,支持广泛的研究与开发。

划重点:

🛠️AgentFlow 是一个模块化的 框架,包含规划器、执行器、验证器和生成器四个模块。

🚀Flow-GRPO 训练方法能够高效优化代理的决策过程,通过轨迹级奖励对每个步骤进行指导。

📈实验结果显示,AgentFlow 在多个基准测试中表现优异,平均提高了 14.9% 的任务完成率,超越了现有的强基线。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

OpenAI 发布全新 GPT-5 Pro API

2025-10-10 1:22:06

AI 资讯

蚂蚁发布万亿参数语言模型 Ling-1T,推理速度与能力引领行业新标杆

2025-10-10 1:22:23

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索