Tilde AI 发布开源 TildeOpen LLM：支持多种欧洲语言的超大语言模型

AI 资讯
25 年 9 月 9 日
编辑

小强

Latvian 语言技术公司 Tilde 于 2025 年 9 月 3 日发布了 TildeOpenLLM，这是一个开源的基础大语言模型（LLM），旨在支持欧洲语言，特别是那些较少被代表的国家和地区语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要的一步。

TildeOpenLLM 是一个拥有 300 亿参数的稠密解码器模型，采用了 CC-BY-4.0 的宽松许可证，能够支持从拉脱维亚语、立陶宛语到乌克兰语、土耳其语等多种语言。该模型的训练是在欧洲的超级计算机 LUMI（芬兰）和 JUPITER 上进行的，使用了欧盟委员会的大型人工智能大奖挑战赛所提供的 200 万 GPU 小时的计算资源。

在技术细节方面，TildeOpenLLM 通过受 EleutherAI 启发的 GPT-NeoX 脚本进行训练，共进行了 45 万次更新，使用了约 2 万亿个令牌。其训练过程包含三阶段采样: 首先在语言间均匀分布，其次是对高数据量语言的自然分布进行增强，最后再进行均匀的扫查以确保平衡。模型的超参数包括 60 层、嵌入维度 6144、48 个注意力头、8192-token 的上下文窗口，以及使用 SwiGLU 激活、RoPE 位置编码和 RMSNorm 层规范化。

在语言公平和数据主权方面，传统的主流模型往往侧重于英语和其他主要语言，导致在处理波罗的海、斯拉夫及其他较小的欧洲语言时表现不佳，常常出现语法错误和奇怪的措辞。而 TildeOpen 通过引入「公平的标记器」，使得不同语言的文本以相似方式进行表示，从而减少标记数量，提高较少代表语言的推理效率。此外，组织可以选择在本地数据中心或符合欧盟要求的安全云中自我托管，确保遵循 GDPR 及其他数据保护法规，从而解决了与美国或亚洲托管模型相关的主权问题。

TildeOpen 作为基础模型，预计会推出更多专门化版本，例如经过指令调优的翻译模型，这将进一步增强其功能。拉脱维亚通过 Tilde 的努力，期望在全球科技领域占据一席之地，同时致力于保护语言多样性。

huggingface:https://huggingface.co/TildeAI/TildeOpen-30b

技术:https://tilde.ai/lv/tildeopen-llm/

划重点:

🌍TildeOpenLLM 是一个支持多种欧洲语言的开源大语言模型，特别关注小型国家语言的代表性。

💻模型训练利用了欧洲超级计算机资源，采用先进的三阶段采样技术，确保不同语言的平衡性和公平性。

🔒组织可自我托管该模型，符合 GDPR 等数据保护法规，提升数据主权的保障。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Tilde AI 发布开源 TildeOpen LLM：支持多种欧洲语言的超大语言模型

特斯拉 AI 官微上线首秀: 人形机器人「秀」身材，加速进化中

AI 伴侣应用 Dot 宣布关停创始人理念分歧导致项目终结

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

特斯拉 AI 官微上线首秀: 人形机器人 「秀」 身材，加速进化中

AI 伴侣应用 Dot 宣布关停 创始人理念分歧导致项目终结

李开复预测：中国大模型未来或只剩三大巨头

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英国电影协会警告：AI 技术对影视行业构成直接威胁

豆包 App「一句话 P 图」 功能全新升级 基于 SeedEdit 3.0 实现全面优化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

特斯拉 AI 官微上线首秀: 人形机器人「秀」身材，加速进化中

AI 伴侣应用 Dot 宣布关停创始人理念分歧导致项目终结

豆包 App「一句话 P 图」功能全新升级基于 SeedEdit 3.0 实现全面优化