全新多语种编码器 mmBERT：超越 XLM-R，提升速度与效率

AI 资讯
25 年 9 月 12 日
编辑

小强

近日，约翰霍普金斯大学的一组研究人员推出了 mmBERT，这是一款新型的多语种编码器，旨在填补当前多语种自然语言处理领域的空白。该模型在多个任务上超越了 XLM-R，且在速度上比以往模型提升了 2 到 4 倍，为多语种应用的研究和开发提供了更强大的支持。

mmBERT 的架构分为两种主要配置: 基础模型和小型模型。基础模型拥有 22 层变换器，隐藏层维度为 1152，总参数量约为 3.07 亿，而小型模型的参数量则为 1.4 亿。mmBERT 采用了先进的 Gemma2 分词器，支持 256k 的词汇量，利用旋转位置嵌入（RoPE）和 FlashAttention2 技术，显著提高了处理效率。同时，该模型的序列长度从 1024 个令牌扩展到 8192 个令牌，意味着其可以处理更长的上下文信息。

在训练数据方面，mmBERT 使用了来自多个来源的 3 万亿个令牌，覆盖了 1833 种语言。其中，英语在整个语料库中仅占 10% 至 34%。训练分为三个阶段: 预训练、阶段中训练和衰减阶段。在每个阶段中，模型逐步接触更多的语言和更高质量的数据，这种方法有助于提高低资源语言的表现。

mmBERT 在多个基准测试中展现了其卓越的性能。在英语自然语言理解（GLUE）任务中，mmBERT 的基础模型得分为 86.3，超越了 XLM-R 的 83.3。在多语种自然语言理解 (XTREME) 任务中，mmBERT 的得分为 72.8，也高于 XLM-R 的 70.4。此外，在嵌入任务和代码检索任务中，mmBERT 同样表现出色，显示出其在多种应用场景中的潜力。

通过对低资源语言的特别关注，mmBERT 确保这些语言在训练过程中也能得到充分的利用。在多项基准测试中，mmBERT 在法罗语和提格雷尼亚语等低资源语言的表现均优于其他大型模型，证明了编码器模型在经过精心训练后，可以有效应对低资源场景的挑战。

mmBERT 不仅提升了多语种处理的速度和效率，还为下一代的多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力，标志着一个新时代的到来。

github：https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file

划重点:

🌍mmBERT 模型在多个任务上超越了 XLM-R，成为多语种 NLP 的新标杆。

⚡该模型速度提升 2 至 4 倍，支持处理高达 8192 个令牌的输入。

📊mmBERT 特别关注低资源语言的训练表现，展现出强大的适应能力和广泛应用潜力。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

全新多语种编码器 mmBERT：超越 XLM-R，提升速度与效率

加州州议会通过 AI 伴侣聊天机器人监管法案，旨在保护未成年人

Replit 发布 Agent 3 智能开发助手，运行时长提升至 200 分钟

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

加州州议会通过 AI 伴侣聊天机器人监管法案，旨在保护未成年人

Replit 发布 Agent 3 智能开发助手，运行时长提升至 200 分钟

如何在本地部署 DeepSeek 模型？

​亚马逊计划测试人形机器人，探索包裹配送自动化

面壁智能推出 MiniCPM 4.0 端侧大模型 可实现 220 倍速度提升

美团王兴详解 AI 布局:No Code 平台免费开放，1680 个应用已上线

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

亚马逊计划测试人形机器人，探索包裹配送自动化

面壁智能推出 MiniCPM 4.0 端侧大模型可实现 220 倍速度提升