巨人网络联手清华大学首创 DiaMoE-TTS,开源多方言语音合成大模型框架

巨人网络 AILab 与清华大学电子工程系 SATLab 研究团队近日联合发布一项重大突破: 首创多方言语音合成框架 DiaMoE-TTS,并宣布将数据、代码、方法全方位,旨在推动方言语音合成的公平与普惠。

在当前通用 TTS() 大模型能力惊人的时代,方言 TTS(DialectTTS) 仍是业界难以触及的 「灰色地带」。现有的工业级方言模型过于依赖巨量的专有数据,导致方言从业者和研究者面临缺乏统一语料构建方法和端到端开源框架的困境。

由双方联合首创的 DiaMoE-TTS 框架,为这一难题提供了一套开源的完整解决方案,其性能在一定程度上可媲美工业级方言 TTS 模型。该方案的关键创新在于:

  1. 统一的 IPA 表达体系: 基于语言学家的专业经验,构建了一个统一的国际音标 (IPA) 表达体系。

  2. 数据高效性: 该框架仅依赖开源方言 ASR(自动) 数据,解决了巨量专有数据依赖的痛点。

在推出广东话、四川话、上海话等中文方言版本之前,该研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,证明该方法具备全球范围内的多语言可扩展性与稳健性。

巨人网络 AILab 与清华大学电子工程系 SATLab 表示,希望通过 DiaMoE-TTS 框架的开源,让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架,确保小众语言与方言的声音不再被通用大模型的洪流所淹没,而是能通过开源的力量被更广泛地听见与传承。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

vivo X200 系列升级计划揭晓!新功能将引爆你的拍摄体验

2025-10-16 1:20:59

AI 资讯

Firefox 全球上线 AI 搜索引擎 Perplexity:用户可自主选择是否启用 AI 搜索

2025-10-16 1:21:06

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索