月之暗面发布 Kimi Linear 架构：KV 缓存减少 75%，推理速度提升 6 倍，Attention 机制迎来颠覆性革新！

AI 资讯
25 年 11 月 1 日
编辑

小强

近日，月之暗面发布了一个颇具革命性的技术——「KimiLinear」混合线性注意力架构。该架构被认为在短距离、长距离处理以及强化学习（RL）等多个场景中，优于传统的全注意力方法。其核心创新在于「KimiDeltaAttention」(KDA)，这是对 GatedDeltaNet 的优化升级，引入了更高效的门控机制，以提升有限状态 RNN(递归神经网络) 记忆的使用效率。

KimiLinear 的架构设计独特，由三份 KimiDeltaAttention 和一份全局 MLA（多层感知机）组成。通过对 GatedDeltaNet 的改良，KDA 能通过细粒度的门控机制，显著压缩有限状态 RNN 的记忆使用。这一设计不仅提高了模型处理信息的速度，还有效减少了内存占用，具有更强的实用性。

官方数据显示，在处理 1Mtoken 的场景下，KimiLinear 的 KVcache 占用量减少了 75%，解码吞吐量最高提升了 6 倍。而在 TPOT（训练速度）的提升上，相较于传统 MLA，KimiLinear 实现了 6.3 倍的加速。这些显著的性能提升，预示着 KimiLinear 在各类 AI 任务中的广泛适用性，尤其是在对速度和内存要求极高的应用场景。

随着人工智能的迅速发展，提升模型的处理能力与效率成为了行业内的关键挑战。月之暗面的 KimiLinear 架构通过其创新设计，为这一领域带来了新的解决方案，未来可能会成为新的行业标杆。

KimiLinear 技术报告的详细信息，可以通过官方的 GitHub 页面获取，感兴趣的读者可以深入了解其技术细节。

技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

月之暗面发布 Kimi Linear 架构：KV 缓存减少 75%，推理速度提升 6 倍，Attention 机制迎来颠覆性革新！

亚马逊挥刀裁员 1.4 万人：AI 转型加速，人类岗位正在让位于机器人？

中国信通院人工智能研究所联合发布《大模型一体机应用研究报告（2025 年）》

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

亚马逊挥刀裁员 1.4 万人：AI 转型加速，人类岗位正在让位于机器人？

中国信通院人工智能研究所联合发布 《大模型一体机应用研究报告 （2025 年）》

李开复预测：中国大模型未来或只剩三大巨头

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英国电影协会警告：AI 技术对影视行业构成直接威胁

豆包 App「一句话 P 图」 功能全新升级 基于 SeedEdit 3.0 实现全面优化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

中国信通院人工智能研究所联合发布《大模型一体机应用研究报告（2025 年）》

豆包 App「一句话 P 图」功能全新升级基于 SeedEdit 3.0 实现全面优化