在当前通用 TTS(文本转语音) 大模型能力惊人的时代,方言 TTS(DialectTTS) 仍是业界难以触及的 「灰色地带」。现有的工业级方言模型过于依赖巨量的专有数据,导致方言从业者和研究者面临缺乏统一语料构建方法和端到端开源框架的困境。
由双方联合首创的 DiaMoE-TTS 框架,为这一难题提供了一套开源的完整解决方案,其性能在一定程度上可媲美工业级方言 TTS 模型。该方案的关键创新在于:
-
统一的 IPA 表达体系: 基于语言学家的专业经验,构建了一个统一的国际音标 (IPA) 表达体系。
-
数据高效性: 该框架仅依赖开源方言 ASR(自动语音识别) 数据,解决了巨量专有数据依赖的痛点。
在推出广东话、四川话、上海话等中文方言版本之前,该研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,证明该方法具备全球范围内的多语言可扩展性与稳健性。
巨人网络 AILab 与清华大学电子工程系 SATLab 表示,希望通过 DiaMoE-TTS 框架的开源,让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架,确保小众语言与方言的声音不再被通用大模型的洪流所淹没,而是能通过开源的力量被更广泛地听见与传承。









