MOSS-TTSD 震撼开源: 百万小时训练打造 AI 播客新王者

由清华大学语音与语言实验室 (TencentAILab) 联合上海创智学院、复旦大学和模思智能打造的 MOSS-TTSD(TexttoSpokenDialogue) 近日正式,标志着 语音合成技术在对话场景中的重大突破。

这款基于 Qwen3-1.7B-base 模型续训练的语音对话生成模型,以约 100 万小时单说话人语音数据和 40 万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合 AI 播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD 的核心创新在于其 XY-Tokenizer,采用双阶段多任务学习方式,通过八层 RVQ 码本将语音信号压缩至 1kbps 比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。模型支持最长 960 秒的超长语音生成,避免了传统 TTS 模型拼接片段导致的不自然过渡。此外,MOSS-TTSD 具备零样本音色克隆能力,可通过上传完整对话片段或单人音频实现双人语音克隆,并支持声音事件控制,如笑声等非语言声音,赋予语音更丰富的表现力。

与市场上其他语音模型相比,MOSS-TTSD 在中文客观指标上大幅领先开源模型 MoonCast,韵律和自然度表现优异。然而,相较于字节跳动的豆包语音模型,其语气和节奏感略逊一筹,但在开源和免费商业使用的优势下,MOSS-TTSD 仍展现出强大的应用潜力。模型权重、推理代码和 API 接口已通过 GitHub(https://github.com/OpenMOSS/MOSS-TTSD) 和 HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5) 全面开源,官方文档和在线体验 Demo 也已上线,为开发者提供便捷接入。

MOSS-TTSD 的发布为 AI 语音交互领域注入新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将推动内容创作的智能化进程。未来,团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达。

地址:https://github.com/OpenMOSS/MOSS-TTSD

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Claude 神器升级:PDF、图像、代码文件都能上传,AI 应用与数据无缝协作

2025-8-2 1:20:49

AI 资讯

字节跳动 Seed 助力清华大学夺得机器人足球世界杯冠军

2025-8-2 1:20:55

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索