蚂蚁百灵大模型团队近日宣布,正式开源其
从团队的介绍来看,Ring-flash-2.0 在多个高难度基准测试中表现出色,包括数学竞赛、代码生成以及逻辑推理等。其性能不仅超越了同类的 40 亿参数模型,甚至能够与更大规模的开源稀疏模型 (MoE) 以及一些闭源的高性能思考模型 API 相媲美,显示出其卓越的竞争力。
为了全面提升 Ring-flash-2.0 的模型能力,蚂蚁百灵团队设计了一套创新的两阶段强化学习 (RL) 训练流程。首先,通过轻量化的 Long-CoT(长序列链式思考)SFT(有监督微调),使 Ling-flash-2.0-base 模型能够掌握多种思考方式。接着,采用可验证奖励的 RLVR(强化学习可验证奖励) 训练,持续激发模型的推理潜能。最后,加入了强化学习人类反馈 (RLHF) 阶段,以增强模型的通用能力。
值得一提的是,Ring-flash-2.0 的模型权重、强化学习训练方案和数据配方都将完全开源,为广大开发者和研究者提供了宝贵的资源。感兴趣的用户可以在 HuggingFace 和 ModelScope 上获取相关资料,开始探索这款强大的模型。
随着 AI 技术的不断发展,Ring-flash-2.0 无疑为未来的智能应用开辟了新的可能,期待它在各个领域的广泛应用和更进一步的突破!
模型地址:
https://huggingface.co/inclusionAI/Ring-flash-2.0
https://modelscope.cn/models/inclusionAI/Ring-flash-2.0









