近日,蚂蚁技术团队宣布正式开源其轻量级推理模型 Ring-lite。该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的 SOTA 效果,再次验证了 MoE 架构的推理潜力。
Ring-lite 以蚂蚁技术此前发布的 Ling-lite-1.5 为起点,该模型采用 MoE 架构,总参数为 16.8B,但激活参数仅 2.75B。凭借独创的 C3PO 强化学习训练方法,Ring-lite 在 AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond 等多项推理榜单上表现优异,比肩 3 倍激活参数大小的 10B 以下 Dense 模型。
在技术实现上,Ring-lite 团队进行了多项创新。首创的 C3PO 强化学习训练方法有效解决了 RL 训练中回复长度波动导致的优化难题,显著改善了训练不稳定和吞吐波动问题。同时,团队还探讨了 Long-CoTSFT 与 RL 的黄金训练比重,从 tokenefficiency 角度提出了基于 entropyloss 来平衡训练效果和样本效率的方案,进一步提升了模型性能。
此外,Ring-lite 还直面了多领域数据联合训练的难题,系统验证了混合训练与分阶段训练的优劣边界,在数学、代码、科学三重领域实现了协同增益。在多项复杂推理任务中,Ring-lite 均展现出了出色的性能,尤其在数学推理和编程竞赛方面,得分领先于对比模型。
为了验证 Ring-lite 的实际应用效果,团队还进行了高考数学和物理题的测试。结果显示,Ring-lite 在数学全国一卷上可以获得 130 分左右的成绩,表现优异。
蚂蚁技术团队表示,Ring-lite 的开源不仅包含了模型权重和训练代码,还将逐步公开所有训练数据集、超参配置乃至实验记录。这可能是轻量级 MoE 推理模型
GitHub:
https://github.com/inclusionAI/Ring
https://huggingface.co/inclusionAI/Ring-lite
ModelScope:
https://modelscope.cn/models/inclusionAI/Ring-lite