Soul 语音模型 SoulX-Podcast 震撼发布：90 分钟无中断播客生成，AI 语音革命再升级

小强

近日，AI 语音领域迎来重大创新——Soul 推出的 SoulX-Podcast 语音模型，以其革命性功能迅速成为行业焦点。该模型专为播客式内容设计，实现了高真实度的语音生成，支持长时段、多说话人、多语种交互，标志着 AI 在自然对话模拟上的又一里程碑。

SoulX-Podcast 的核心亮点在于其高保真与稳定性。它能够连续生成超过 90 分钟的对话内容，而不出现任何稳定性衰减，确保输出流畅自然。这项能力特别适用于长篇播客、访谈或故事讲述场景，让 AI 语音从短时演示转向实用级应用。

多语种与方言支持: 中英双语+方言无缝融合

模型在语言处理上表现出色，支持普通话、英语以及多种中文方言的多轮对话生成。用户可以轻松实现中英双语切换，或融入地方方言元素，营造更具地域特色的播客氛围。更进一步，它具备副语言控制功能，如笑声、叹气、停顿等情感表达的精确模拟，进一步提升了语音的生动性和沉浸感。

值得一提的是，SoulX-Podcast 在零样本克隆与迁移方面的创新。该功能允许模型在无需额外训练的情况下，直接克隆特定声音和语气，实现个性化语音定制。这不仅降低了开发门槛，还为内容创作者提供了无限创意空间，例如快速复刻名人访谈风格或模拟虚拟主持人的独特语调。

行业影响:AI 播客时代加速到来

这一发布无疑将推动 AI 语音在媒体、娱乐和教育领域的广泛应用。专家指出，SoulX-Podcast 的出现，将挑战传统录音棚模式，让小型团队也能高效产出高质量播客内容。未来，随着模型的迭代，预计将进一步扩展到实时交互和跨平台集成。

项目地址：https://github.com/Soul-AILab/SoulX-Podcast

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证