10 月 14 日凌晨,蚂蚁集团正式推出万亿参数思考模型 Ring-1T,并全面开源模型权重、训练配方。Ring-1T 在 9 月 30 日开源的预览版 Ring-1T-preview 基础上,持续扩展大规模可验证奖励强化学习 (RLVR) 训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,在各项任务榜单上表现更加均衡。
为了持续激发 Ring-1T 的数学等复杂推理能力,此次百灵团队挑战了难度更高的 IMO2025(国际数学奥利匹克) 赛题,将 Ring-1T 接入多智能体框架 AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T 仅用一次解出了第 1、3、4、5 题,相当于 IMO 银牌水平,成为首个能拿 IMO 国际奥数奖的开源系统。Ring-1T 在第三次尝试 IMO 时对第 2 题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与 Gemini2.5Pro 相同的 「4048」(正确答案为 2112)。作为一款思考模型,Ring-1T 也表现出了
万亿参数思考模型训练
此外,本次发布的 Ring-1T 模型继续采用 Ling2.0 架构的 1Tbase 模型做后训练,Ling2.0 采用了包括高度稀疏的 MoE 架构,1/32 的专家激活比、FP8 混合精度、MTP 等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过 LongCoT-SFT+RLVR+RLHF 多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。
据百灵团队透露,Ring-1T 模型是其在万亿思考模型上的
据了解,截止目前蚂蚁百灵大模型已经发布 18 款模型,已形成从 160 亿总参数到 1 万亿总参数的大语言模型产品矩阵,其中两款万亿参数模型—万亿参数通用大语言模型 Ling-1T、万亿参数思考模型 Ring-1T。随着两款万亿参数模型的发布,百灵大模型也正式步入 2.0 阶段。









