微软推出 Agent Lightning: 全新 AI 框架助力强化学习训练大规模语言模型

AI 资讯
25 年 10 月 31 日
编辑

小强

微软近日发布了 AgentLightning，这是一个开源框架，旨在通过强化学习（RL）优化多代理系统。AgentLightning 可以在不改变现有代理架构的情况下，将真实代理行为转化为 RL 过渡，从而提升策略大规模语言模型 (LLM) 的性能。

AgentLightning 将代理建模为一个决策过程，具体来说，它将代理形式化为部分可观测的马尔可夫决策过程。代理的观察为当前输入，行动为模型调用，而奖励则可以是终极奖励或中间奖励。该框架提取代理模型的调用记录，以及输入、输出和奖励信息，从而过滤掉多余的噪声，生成用于训练的干净过渡数据。

该框架采用「训练代理解耦」的方法，由 LightningServer 进行训练和服务，并提供与 OpenAI 兼容的 API 接口，便于更新后的模型调用。而 LightningClient 则在现有的代理运行时捕获调用记录，并将数据实时传回服务器。这一设计保持了工具、浏览器和其他依赖关系的紧密集成，同时将 GPU 训练放在服务器层。

AgentLightning 支持两种追踪路径。默认路径使用 OpenTelemetry 进行数据收集，方便将代理的遥测信息传送至标准收集器。还有一种轻量级的嵌入式追踪器，适合不想部署 OpenTelemetry 的团队。最终，所有数据都存储在同一位置以供训练使用。

在实验方面，研究团队评估了三项任务，分别是文本转 SQL、检索增强生成和数学问答。文本转 SQL 使用 Spider 基准，涵盖超过 10，000 个问题和 200 个数据库。检索增强生成利用 MuSiQue 基准，建立在包含 2100 万文档的维基百科规模索引上。而数学问答则使用 CalcX 数据集，通过工具调用进行计算。每项任务的训练均显示出稳定的奖励提升。

论文:https://arxiv.org/abs/2508.03680v1

划重点:

🌟AgentLightning 是一个开源框架，支持在不重构现有系统的情况下优化多代理系统。

🚀该框架将代理建模为部分可观测的马尔可夫决策过程，提取干净的训练过渡数据。

📈实验显示，AgentLightning 在文本转 SQL、检索增强生成和数学问答任务上均取得了显著的性能提升。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

微软推出 Agent Lightning: 全新 AI 框架助力强化学习训练大规模语言模型

Vercel 通过 AI 技术裁减团队，实现销售效率大幅提升

Anthropic 重磅研究：Claude 能检测并调节内部思维，自省能力初现！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Vercel 通过 AI 技术裁减团队，实现销售效率大幅提升

Anthropic 重磅研究：Claude 能检测并调节内部思维，自省能力初现！

李开复预测：中国大模型未来或只剩三大巨头

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英国电影协会警告：AI 技术对影视行业构成直接威胁

豆包 App「一句话 P 图」 功能全新升级 基于 SeedEdit 3.0 实现全面优化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

豆包 App「一句话 P 图」功能全新升级基于 SeedEdit 3.0 实现全面优化