​蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp

蚂蚁百灵团队最近宣布其全新高效推理模型——Ring-mini-sparse-2.0-exp。该模型基于 Ling2.0 架构,专为长序列解码进行了优化,采用了创新的稀疏注意力机制。

这一新架构将高稀疏比的 MixtureofExpert(MoE) 结构与稀疏注意力机制有机结合,旨在提升模型在复杂长序列推理场景下的表现。

团队表示,得益于架构与推理框架的深度协同优化,Ring-mini-sparse-2.0-exp 在处理长序列时的吞吐量相比其前身 Ring-mini-2.0 提高了近三倍。

在多项高难度推理基准测试中,该模型同样持续保持了 SOTA(StateoftheArt) 性能,展示了其出色的上下文处理能力和高效推理能力,为开源社区提供了新的轻量化解决方案。

Ling2.0Sparse 架构主要是为了解决未来发展中的两个核心趋势: 上下文长度的扩展和测试时的扩展。团队借鉴了 MixtureofBlockAttention(MoBA) 的设计思路,采用了块级稀疏注意力 (block-wisesparseattention),将输入的 Key 和 Value 按块划分,每个 query 在 head 维度上进行 top-k 块选择。

只有在选中的块上进行 softmax 计算,这样大大降低了计算开销。此外,团队将 MoBA 设计与 GroupedQueryAttention(GQA) 结合,使得同一组内的 queryheads 共享 top-k 块选择结果,从而减少 I/O 开销。

GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba

划重点:

🌟新模型 Ring-mini-sparse-2.0-exp 在长序列推理中表现优越,吞吐量提升近三倍。

🔍该模型采用了创新的稀疏注意力机制,兼顾高效推理与上下文处理能力。

📥模型已在多个平台开源,方便社区进行应用与研究。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​腾讯推出全新 「AI 程序员」 Ada,助力开发者提升效率

2025-10-28 1:21:04

AI 资讯

月之暗面开源 Kimi CLI:命令行+AI 代理双模切换,开发者效率新利器来了

2025-10-28 1:21:20

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索