​昆仑万维发布并开源 Skywork-SWE-32B:开源软件工程智能体模型引领新风潮

在软件工程领域,昆仑万维于 6 月 20 日正式发布了其自主研发的代码智能体基座模型 Skywork-SWE-32B,并将其。该模型在软件工程任务中表现卓越,成为业界在 32B 参数规模下最强的代码修复能力模型。昆仑万维团队通过构建超过 1 万个可验证的 GitHub 仓库任务实例,创造了目前规模最大的可验证数据集,系统地验证了在软件工程任务上的数据缩放定律。

Skywork-SWE-32B 在 SWE-benchVerified 基准上取得了 38.0% 的 pass@1 准确率,这一成绩刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。通过引入测试时扩展技术,该模型的表现进一步提升至 47.0% 的准确率,不仅超过了目前在 32B 参数规模以下的开源模型,也缩小了与一些闭源模型之间的性能差距。

昆仑万维团队针对当前市场上 SWE 任务的主流数据集存在的问题,建立了一套三阶段的自动化流程来收集和验证训练数据。在数据采集阶段,他们通过 GitHubAPI 抓取了超过 15 万个开源仓库的信息,并通过一系列严格的筛选步骤,最终保留了 23,389 个任务样本。在验证阶段,团队使用统一命令生成和 Docker 环境构建技术,确保每个任务样本的有效性,最终生成了 10,169 条高质量样本。

在智能体轨迹生成阶段,团队使用开源的 OpenHands 框架,结合商用大模型作为基座,对每个任务执行了多轮交互,全面记录智能体的解决过程。最终,他们构建出 8,209 条高质量的验证通过轨迹,为 Skywork-SWE-32B 的训练提供了坚实基础。

Skywork-SWE-32B 的成功发布,为软件工程智能体的发展注入了新的活力,展现了其在处理复杂开发场景下的能力与潜力。

博客地址🔗

https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

地址🔗

https://huggingface.co/Skywork/Skywork-SWE-32B

划重点:

🌟Skywork-SWE-32B 模型在 SWE-benchVerified 基准上取得 38.0% 的 pass@1 准确率,刷新了现有 32B 开源模型的最佳成绩。

📈引入测试时扩展技术后,模型的准确率提升至 47.0%,显著缩小了与闭源模型的性能差距。

🔍昆仑万维建立了自动化流程,构建出超 1 万条高质量、可验证的 SWE 任务数据集,为模型的训练奠定了基础。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

宇树科技近期已完成 C 轮融资交割

2025-6-21 1:21:30

AI 资讯

小扎出手挖人!Meta 新目标锁定 Ilya 公司 CEO

2025-6-21 1:21:46

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索