Kyutai Labs 开源 Kyutai TTS: 低延迟流式文本转语音技术

7 月 3 日,法国 研究机构 KyutaiLabs 宣布最新(TTS) 技术——KyutaiTTS,为开发者与 AI 爱好者带来高效、实时的语音生成解决方案。KyutaiTTS 以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

KyutaiTTS 在性能上表现卓越。使用单块 NVIDIAL40SGPU,该模型可同时处理 32 个请求,延迟仅为 350 毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如 Unmute 平台的中断处理功能。

在语言支持与质量评估方面,KyutaiTTS 目前支持英语和法语,单词错误率 (WER) 分别为 2.82 和 3.29,展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统 TTS 的 30 秒限制,适合新闻、书籍等长篇内容生成。

KyutaiTTS 采用延迟流建模 (DSM) 架构,结合 Rust 服务器实现高效批处理,已在 GitHub 和 开放源码与模型权重,助力全球开发者推动语音技术创新。

开源地址:https://kyutai.org/next/tts

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

谷歌 Veo 3 视频生成模型向 Pro / Ultra 会员开放,将新增 「照片生成视频」 功能

2025-7-5 1:23:08

AI 资讯

飞渡科技推出 「峥嵘大模型」,数字双胞胎迎来智能新纪元!

2025-7-8 1:20:31

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索