小红书发布新一代对话合成模型 FireRedTTS-2,助力 AI 播客制作

智创音频技术团队近日推出了新一代对话合成模型 FireRedTTS-2,标志着对话生成技术的又一重要进展。该模型旨在解决现有对话合成方案中存在的一些痛点,例如灵活性差、发音错误频繁、说话人切换不稳定以及韵律自然度不足等问题。

FireRedTTS-2 通过升级其核心模块,特别是离散语音编码器和文本语音合成模型,全面提升了合成效果。在多项主客观评测中,FireRedTTS-2 均显示出行业领先水平,为多说话人的对话合成提供了更优的解决方案。其技术报告已在 上发布,并可通过专用 Demo 和代码链接进行体验。

FireRedTTS-2 的一个显著特点是其合成的自然度,模型能对重音、情绪和停顿等细节进行精确把握,音质自然流畅。与闭源的对话生成模型相比,FireRedTTS-2 不仅能够生成高质量的播客音频,还支持音色克隆功能。只需提供每个发音人的一句语音样本,模型就可以模仿其音色和说话习惯,自动生成整段对话。这种功能使得其在对话生成领域具备了很强的竞争力。

在训练过程中,FireRedTTS-2 不仅支持多语言 (包括中文、英语、日语、韩语和法语),还利用低帧率的离散语音编码器提高了合成的速度与稳定性。同时,采用双 Transformer 的模型架构,使得合成语音更自然、更连贯。此外,FireRedTTS-2 只需少量数据即可实现音色定制,快速适应不同的应用场景。

FireRedTTS-2 的推出不仅为 播客和对话合成应用提供了工业级解决方案,还为行业内外的创新探索打开了新的可能性。未来,团队将持续优化该模型,增加支持的说话人数和语言种类,并探索更多的可控音效插入功能,以满足不断增长的市场需求。

  • 代码链接:https://github.com/FireRedTeam/FireRedTTS2

划重点:

🎤FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型,旨在提升合成效果和自然度。

🗣️模型具备音色克隆能力,只需少量样本即可生成自然的多说话人对话。

🌐支持多种语言和低帧率的离散语音编码器,提高合成速度与稳定性,适应多场景应用。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

蚂蚁开源在外滩大会发布 2025 全球大模型开源生态全景图,揭示 AI 开发三大趋势

2025-9-16 1:23:02

AI 资讯

吊坠型 AI 吊坠 「Friend」 引发争议:用户体验差、隐私风险高

2025-9-16 1:23:30

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索