小红书发布新一代对话合成模型 FireRedTTS-2，助力 AI 播客制作

AI 资讯
25 年 9 月 16 日
编辑

小强

小红书智创音频技术团队近日推出了新一代对话合成模型 FireRedTTS-2，标志着对话生成技术的又一重要进展。该模型旨在解决现有对话合成方案中存在的一些痛点，例如灵活性差、发音错误频繁、说话人切换不稳定以及韵律自然度不足等问题。

FireRedTTS-2 通过升级其核心模块，特别是离散语音编码器和文本语音合成模型，全面提升了合成效果。在多项主客观评测中，FireRedTTS-2 均显示出行业领先水平，为多说话人的对话合成提供了更优的解决方案。其技术报告已在 arXiv 上发布，并可通过专用 Demo 和代码链接进行体验。

FireRedTTS-2 的一个显著特点是其合成的自然度，模型能对重音、情绪和停顿等细节进行精确把握，音质自然流畅。与闭源的对话生成模型相比，FireRedTTS-2 不仅能够生成高质量的播客音频，还支持音色克隆功能。只需提供每个发音人的一句语音样本，模型就可以模仿其音色和说话习惯，自动生成整段对话。这种功能使得其在开源对话生成领域具备了很强的竞争力。

在训练过程中，FireRedTTS-2 不仅支持多语言（包括中文、英语、日语、韩语和法语），还利用低帧率的离散语音编码器提高了合成的速度与稳定性。同时，采用双 Transformer 的模型架构，使得合成语音更自然、更连贯。此外，FireRedTTS-2 只需少量数据即可实现音色定制，快速适应不同的应用场景。

FireRedTTS-2 的推出不仅为 AI 播客和对话合成应用提供了工业级解决方案，还为行业内外的创新探索打开了新的可能性。未来，团队将持续优化该模型，增加支持的说话人数和语言种类，并探索更多的可控音效插入功能，以满足不断增长的市场需求。

代码链接:https://github.com/FireRedTeam/FireRedTTS2

划重点:

🎤FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型，旨在提升合成效果和自然度。

🗣️模型具备音色克隆能力，只需少量样本即可生成自然的多说话人对话。

🌐支持多种语言和低帧率的离散语音编码器，提高合成速度与稳定性，适应多场景应用。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

小红书发布新一代对话合成模型 FireRedTTS-2，助力 AI 播客制作

蚂蚁开源在外滩大会发布 2025 全球大模型开源生态全景图，揭示 AI 开发三大趋势

吊坠型 AI 吊坠「Friend」引发争议：用户体验差、隐私风险高

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

蚂蚁开源在外滩大会发布 2025 全球大模型开源生态全景图，揭示 AI 开发三大趋势

吊坠型 AI 吊坠 「Friend」 引发争议：用户体验差、隐私风险高

马斯克驳斥 xAI 巨额亏损传闻: 每月烧钱 10 亿美元纯属无稽之谈

腾讯云推出全链路 AI 驱动应用开发平台 「AI Builder」

微软重磅发布设备端小模型 Mu:3.3 亿参数小模型 Windows11 设置 AI 助手的智能引擎

小米 AI 眼镜发布：1999 元起 支持超级小爱、看一眼支付等功能

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

吊坠型 AI 吊坠「Friend」引发争议：用户体验差、隐私风险高

腾讯云推出全链路 AI 驱动应用开发平台「AI Builder」

小米 AI 眼镜发布：1999 元起支持超级小爱、看一眼支付等功能