KyutaiTTS 在性能上表现卓越。使用单块 NVIDIAL40SGPU,该模型可同时处理 32 个请求,延迟仅为 350 毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如 Unmute 平台的中断处理功能。
在语言支持与质量评估方面,KyutaiTTS 目前支持英语和法语,单词错误率 (WER) 分别为 2.82 和 3.29,展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统 TTS 的 30 秒限制,适合新闻、书籍等长篇内容生成。
KyutaiTTS 采用延迟流建模 (DSM) 架构,结合 Rust 服务器实现高效批处理,已在 GitHub 和 HuggingFace 开放源码与模型权重,助力全球开发者推动语音技术创新。
开源地址:https://kyutai.org/next/tts







