Kyutai Labs 开源 Kyutai TTS: 低延迟流式文本转语音技术

AI 资讯
25 年 7 月 5 日
编辑

小强

7 月 3 日，法国 AI 研究机构 KyutaiLabs 宣布开源其最新文本转语音（TTS）技术——KyutaiTTS，为开发者与 AI 爱好者带来高效、实时的语音生成解决方案。KyutaiTTS 以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场景。

KyutaiTTS 在性能上表现卓越。使用单块 NVIDIAL40SGPU，该模型可同时处理 32 个请求，延迟仅为 350 毫秒。此外，系统不仅生成高质量音频，还能输出单词的精确时间戳，方便实时字幕生成或交互式应用，如 Unmute 平台的中断处理功能。

在语言支持与质量评估方面，KyutaiTTS 目前支持英语和法语，单词错误率（WER）分别为 2.82 和 3.29，展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语)，确保语音自然且接近原始样本。模型还能处理长篇文章，突破传统 TTS 的 30 秒限制，适合新闻、书籍等长篇内容生成。

KyutaiTTS 采用延迟流建模（DSM）架构，结合 Rust 服务器实现高效批处理，已在 GitHub 和 HuggingFace 开放源码与模型权重，助力全球开发者推动语音技术创新。

开源地址：https://kyutai.org/next/tts

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Kyutai Labs 开源 Kyutai TTS: 低延迟流式文本转语音技术

谷歌 Veo 3 视频生成模型向 Pro / Ultra 会员开放，将新增「照片生成视频」功能

飞渡科技推出「峥嵘大模型」，数字双胞胎迎来智能新纪元！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

谷歌 Veo 3 视频生成模型向 Pro / Ultra 会员开放，将新增 「照片生成视频」 功能

飞渡科技推出 「峥嵘大模型」，数字双胞胎迎来智能新纪元！

​人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration

Claudia 发布！优雅界面赋能 Claude Code，跨平台 AI 编程新体验

周鸿祎：AI 再强大也无法取代人类的三大能力

全球独角兽榜单出炉！SpaceX、字节跳动和 OpenAI 荣登前三甲

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

谷歌 Veo 3 视频生成模型向 Pro / Ultra 会员开放，将新增「照片生成视频」功能

飞渡科技推出「峥嵘大模型」，数字双胞胎迎来智能新纪元！

人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration