蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp

AI 资讯
25 年 10 月 28 日
编辑

小强

蚂蚁百灵大模型团队最近宣布开源其全新高效推理模型——Ring-mini-sparse-2.0-exp。该模型基于 Ling2.0 架构，专为长序列解码进行了优化，采用了创新的稀疏注意力机制。

这一新架构将高稀疏比的 MixtureofExpert（MoE）结构与稀疏注意力机制有机结合，旨在提升模型在复杂长序列推理场景下的表现。

团队表示，得益于架构与推理框架的深度协同优化，Ring-mini-sparse-2.0-exp 在处理长序列时的吞吐量相比其前身 Ring-mini-2.0 提高了近三倍。

在多项高难度推理基准测试中，该模型同样持续保持了 SOTA（StateoftheArt）性能，展示了其出色的上下文处理能力和高效推理能力，为开源社区提供了新的轻量化解决方案。

Ling2.0Sparse 架构主要是为了解决大语言模型未来发展中的两个核心趋势: 上下文长度的扩展和测试时的扩展。团队借鉴了 MixtureofBlockAttention（MoBA）的设计思路，采用了块级稀疏注意力 (block-wisesparseattention)，将输入的 Key 和 Value 按块划分，每个 query 在 head 维度上进行 top-k 块选择。

只有在选中的块上进行 softmax 计算，这样大大降低了计算开销。此外，团队将 MoBA 设计与 GroupedQueryAttention（GQA）结合，使得同一组内的 queryheads 共享 top-k 块选择结果，从而减少 I/O 开销。

GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba

划重点:

🌟新模型 Ring-mini-sparse-2.0-exp 在长序列推理中表现优越，吞吐量提升近三倍。

🔍该模型采用了创新的稀疏注意力机制，兼顾高效推理与上下文处理能力。

📥模型已在多个平台开源，方便社区进行应用与研究。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp

腾讯推出全新「AI 程序员」 Ada，助力开发者提升效率

月之暗面开源 Kimi CLI：命令行+AI 代理双模切换，开发者效率新利器来了

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​腾讯推出全新 「AI 程序员」 Ada，助力开发者提升效率

月之暗面开源 Kimi CLI：命令行+AI 代理双模切换，开发者效率新利器来了

ElevenLabs 推出 Studio 3.0，一站搞定 AI 语音、配乐、音效等

​Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型

钉钉 AI 表格助理正式上线：一句话生成表格，打造企业级 AI 应用平台

​Kimi 推出全新 Agent 模式 「OK Computer」，开启灰度测试

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

腾讯推出全新「AI 程序员」 Ada，助力开发者提升效率

Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型

Kimi 推出全新 Agent 模式「OK Computer」，开启灰度测试