谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

AI 资讯
25 年 7 月 18 日
编辑

小强

在人工智能领域，大型语言模型（LLM）因其出色的表现而受到广泛关注，但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战，谷歌 DeepMind 最近推出了一种新架构——Mixture-of-Recursions(MoR)，该架构被认为有潜力成为传统 Transformer 模型的「杀手」。

MoR 架构在递归 Transformer 的基础上进行了创新，旨在同时实现参数共享和自适应计算。通过将动态的 token 级路由集成到高效的递归 Transformer 中，MoR 能够在不增加模型成本的情况下，提供与大型模型相媲美的性能。该模型通过轻量级路由系统，为每个 token 分配专属的递归深度，动态决定每个 token 所需的「思考」层数。这种方法能够有效分配计算资源，提升处理效率。

在具体实现上，MoR 采用了一种先进的缓存机制，该机制能够根据 token 的递归深度选择性地缓存和检索相关的键值对。这一创新显著降低了内存带宽压力，提高了推理吞吐量。同时，MoR 还通过参数共享、计算路由和递归级缓存等多项优化措施，显著减少了参数量，降低了计算开销。

在实验中，MoR 在相同计算预算下以更少的参数数量超越了原始 Transformer 和递归 Transformer，验证了其优越的性能。通过与基线模型进行对比，MoR 在少样本学习的平均准确率上也取得了更好的成绩，尽管其参数量减少近 50%。这一成功归因于其高效的计算策略，使得 MoR 能够处理更多的训练 token。

此外，研究人员还发现，MoR 在不同计算预算下始终优于递归基线模型，尤其在模型规模超过 360M 时，MoR 不仅能够追平原始 Transformer，还能在低至中等预算下常常超越对手。因此，MoR 被视为一种可扩展且高效的替代方案，适合用于大规模的预训练和部署。

随着 AI 技术的不断发展，MoR 架构的推出为大型语言模型的高效化提供了新的解决方案，预示着 AI 研究领域的新突破。

论文链接:alphaxiv.org/abs/2507.10524

划重点:

🌟MoR 架构通过动态分配计算资源和缓存机制，有效提高大型语言模型的效率。

📉在相同计算预算下，MoR 以更少参数超越传统 Transformer，性能更优。

🚀MoR 被视为 AI 研究中的新突破，适合大规模预训练与部署。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

Anthropic 估值飙升至 1000 亿美元，年收入增长四倍

ChatGPT 新增音频转录功能！办公利器让你轻松记录会议要点

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​Anthropic 估值飙升至 1000 亿美元，年收入增长四倍

ChatGPT 新增音频转录功能！办公利器让你轻松记录会议要点

如何在本地部署 DeepSeek 模型？

​亚马逊计划测试人形机器人，探索包裹配送自动化

面壁智能推出 MiniCPM 4.0 端侧大模型 可实现 220 倍速度提升

美团王兴详解 AI 布局:No Code 平台免费开放，1680 个应用已上线

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Anthropic 估值飙升至 1000 亿美元，年收入增长四倍

亚马逊计划测试人形机器人，探索包裹配送自动化

面壁智能推出 MiniCPM 4.0 端侧大模型可实现 220 倍速度提升