昆仑万维再次开源奖励模型 Skywork-Reward-V2

年 7 月 4 日,昆仑万维乘势而上,继续第二代奖励模型 Skywork-Reward-V2 系列。此系列共包含 8 个基于不同基座模型、参数规模从 6 亿到 80 亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。

奖励模型在从人类反馈中强化学习 (RLHF) 过程中起着关键作用。为打造新一代奖励模型,昆仑万维构建了包含 4000 万对偏好对比的混合数据集 Skywork-SynPref-40M。在数据处理上,团队采用人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。第一阶段,先构建未经验证的初始偏好池,借助生成辅助属性,人工标注者再依照严格协议和外部工具、大语言模型对部分数据精细审核,构建出小规模高质量 「金标准」 数据集。随后以金标准数据偏好标签为引导,结合大语言模型大规模生成高质量 「银标准」 数据,并多轮迭代优化。第二阶段则转向自动化大规模数据扩展,用训练完成的奖励模型执行一致性过滤,减少人工标注负担的同时,实现偏好数据规模与质量的平衡。

基于优质混合偏好数据开发的 Skywork-Reward-V2 系列,展现出广泛适用性和出色能力。它涵盖对人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及 best-of-N 扩展能力等多个维度。在 RewardBenchv1/v2、PPEPreference&Correctness、RMB、RM-Bench、JudgeBench 等七个主流奖励模型评估基准上全面达到当前最优 (SOTA) 水平。即便基于最小模型 Skywork-Reward-V2-Qwen3-0.6B,整体性能也几乎达到上一代最强模型的平均水平,Skywork-Reward-V2-Qwen3-1.7B 更是超越当前开源奖励模型的 SOTA。最大规模的 Skywork-Reward-V2-Llama-3.1-8B 在所有主流基准测试中全面超越,成为当前整体表现最优的开源奖励模型。

该系列模型还具备广泛覆盖多维人类偏好能力。在通用偏好评估基准上优于多个参数更大的模型及最新生成型奖励模型; 在客观正确性评估方面,知识密集型任务表现突出; 在多项高级能力评估中,包括 Best-of-N 任务、偏见抵抗能力测试、复杂指令理解及真实性判断等均取得领先成绩,展现出出色的泛化能力与实用性。

此外,数据筛选流程的高度扩展性显著提升了奖励模型性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能持续有效提升模型整体性能,尤其在第二阶段全自动数据扩展中表现显著。早期版本实验显示,仅用 1.8% 的高质量数据训练 8B 规模模型,性能就超过当前 70B 级 SOTA 奖励模型,印证了 Skywork-SynPref 数据集在规模和质量上的优势。

地址:

https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

GitHub 地址:

https://github.com/SkyworkAI/Skywork-Reward-V2

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​CoreWeave 率先推出英伟达最新 AI 芯片,助力云计算行业创新

2025-7-5 1:22:50

AI 资讯

谷歌 Veo 3 视频生成模型向 Pro / Ultra 会员开放,将新增 「照片生成视频」 功能

2025-7-5 1:23:08

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索