MOSS-TTSD 震撼开源: 百万小时训练打造 AI 播客新王者

AI 资讯
25 年 8 月 2 日
编辑

小强

由清华大学语音与语言实验室（TencentAILab）联合上海创智学院、复旦大学和模思智能打造的 MOSS-TTSD(TexttoSpokenDialogue) 近日正式开源，标志着 AI 语音合成技术在对话场景中的重大突破。

这款基于 Qwen3-1.7B-base 模型续训练的语音对话生成模型，以约 100 万小时单说话人语音数据和 40 万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合 AI 播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD 的核心创新在于其 XY-Tokenizer，采用双阶段多任务学习方式，通过八层 RVQ 码本将语音信号压缩至 1kbps 比特率，同时保留语义与声学信息，确保生成语音的自然度和流畅性。模型支持最长 960 秒的超长语音生成，避免了传统 TTS 模型拼接片段导致的不自然过渡。此外，MOSS-TTSD 具备零样本音色克隆能力，可通过上传完整对话片段或单人音频实现双人语音克隆，并支持声音事件控制，如笑声等非语言声音，赋予语音更丰富的表现力。

与市场上其他语音模型相比，MOSS-TTSD 在中文客观指标上大幅领先开源模型 MoonCast，韵律和自然度表现优异。然而，相较于字节跳动的豆包语音模型，其语气和节奏感略逊一筹，但在开源和免费商业使用的优势下，MOSS-TTSD 仍展现出强大的应用潜力。模型权重、推理代码和 API 接口已通过 GitHub（https://github.com/OpenMOSS/MOSS-TTSD）和 HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5) 全面开源，官方文档和在线体验 Demo 也已上线，为开发者提供便捷接入。

MOSS-TTSD 的发布为 AI 语音交互领域注入新活力，尤其在长篇访谈、播客制作和影视配音等场景中，其稳定性和表现力将推动内容创作的智能化进程。未来，团队计划进一步优化模型，增强多说话人场景下的语音切换准确性和情感表达。

地址：https://github.com/OpenMOSS/MOSS-TTSD

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

MOSS-TTSD 震撼开源: 百万小时训练打造 AI 播客新王者

Claude 神器升级：PDF、图像、代码文件都能上传，AI 应用与数据无缝协作

字节跳动 Seed 助力清华大学夺得机器人足球世界杯冠军

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Claude 神器升级：PDF、图像、代码文件都能上传，AI 应用与数据无缝协作

字节跳动 Seed 助力清华大学夺得机器人足球世界杯冠军

Claude Artifacts 重磅上线！零代码打造 AI 应用，分享创意从此无界

1999 元起！小米 AI 眼镜颠覆智能穿戴，拍摄、支付、音乐一镜全能！

TEN VAD 震撼开源：企业级语音检测神器，打造超智能 AI 语音助手！

百度发布自研视频生成模型 MuseSteamer 及视频产品平台 「绘想」

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

百度发布自研视频生成模型 MuseSteamer 及视频产品平台「绘想」