DeepSWE 开源 AI Agent 系统强势登顶,基于 Qwen3-32B

领域,又一重磅消息传来。今天凌晨,知名训练平台 Together. 与 Agentica 联合推出了开源 AIAgent 框架 DeepSWE。这一创新系统是基于阿里最新的 Qwen3-32B 模型,完全通过强化学习进行训练。

DeepSWE 的开源信息可在 上获取,除了模型权重外,训练方法、日志和数据集等所有相关内容也一并公开,旨在帮助开发者更深入地学习和改进这一代理系统。

根据 SWE-Bench-Verified 测试结果,DeepSWE 在 64k 的最大上下文长度和 100 的最大环境步骤下评估,经过 16 次运行,Pass@1 准确率达到了 42.2%。经过混合测试后,其性能更是提升至 59%,使其在所有开源代理框架中位列榜首。

DeepSWE 的训练采用了 rLLM 框架,这是一个专门用于语言后期训练的系统。它在 64 个 H100GPU 上,对来自 R2E-Gym 训练环境的 4500 个真实世界软件工程任务进行了为期 6 天的训练。这些任务包括解决 GitHub 问题、实现新代码功能和调试等,展示了现实世界软件工程的多样性。

在训练过程中,DeepSWE 通过与环境的互动,学习如何在广泛的代码库中进行浏览、针对性编辑代码、运行构建和测试的 shell 命令,并在处理实际拉取请求时优化解决方案。数据集管理方面,使用了 R2E-Gym 子集中的 4500 个问题,确保了训练数据的纯净性和相关性。

训练环境围绕 R2E-Gym 构建,支持可扩展的高质量可执行软件工程环境。奖励机制则采用稀疏结果奖励模型,只有当生成的补丁通过所有测试时才给予正奖励,促进了更有效的学习。

DeepSWE 的训练还采用了改进版的 GRPO++算法,通过整合多项创新,实现了更稳定和高效的训练过程。此外,研究人员还发现,在针对软件工程任务时,增加输出 token 数量的效果不明显,而通过滚动数量扩展则显著提升了模型性能。

这一系列的努力,使得 DeepSWE 成为了一款极具潜力的 系统,推动了强化学习在实际应用中的进步。

开源地址:https://huggingface.co/agentica-org/DeepSWE-Preview

划重点:

🌟DeepSWE 是基于 Qwen3-32B 模型,完全通过强化学习训练而成,开源信息已全面发布。

🏆在 SWE-Bench-Verified 测试中,DeepSWE 表现出色,Pass@1 准确率达到了 59%,成为所有开源代理中的佼佼者。

💡采用了 rLLM 框架和改进的 GRPO++算法,DeepSWE 在实际软件工程任务中展现了其强大的学习能力和应用潜力。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Cursor 大胆挖人!Claude Code 核心人物转投竞争对手

2025-7-4 1:23:11

AI 资讯

字节跳动开源 Trae-Agent,助力智能开发新体验

2025-7-5 1:20:31

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索