Qwen-TTS 重磅发布:方言语音合成新突破,真实感媲美真人

昨日,阿里巴巴通义团队正式推出了 Qwen-TTS 模型,这款(TTS) 模型以其超高真实感和多方言支持引发行业热议。 编辑团队整理最新信息,为您深入解析这款通过 QwenAPI 提供服务的语音合成利器,及其在 语音技术领域的突破性意义。

Qwen-TTS: 超真实语音合成

Qwen-TTS 是通义团队基于大规模语音数据集研发的最新文本转语音模型,通过数百万小时的语音训练,生成的声音在自然度、韵律、节奏和情感表达上达到了极高水平。用户通过 QwenAPI 即可体验到接近真人发声的语音效果,适用于教育、娱乐、智能客服等多种场景。

图源备注:图片由 AI 生成

支持多方言与双语声音

Qwen-TTS 的亮点之一是其多样化的语言支持。模型不仅支持标准普通话,还覆盖了北京话、上海话和四川话三种中文方言,为用户提供更具地域特色的语音体验。此外,Qwen-TTS 提供七种中英双语音色,包括 Cherry、Ethan、Chelsie、Serena、Dylan、Jada 和 Sunny,每种音色都经过精心调校,确保发音地道且富有表现力。这种多方言、多音色的设计极大拓展了模型的应用场景,满足不同文化背景用户的需求。

技术突破: 流式输出与情感调节

Qwen-TTS 支持流式音频输出,能够根据输入文本动态调整语调、语速和情感变化,生成的声音不仅真实,还能传递细腻的情感表达。相较于传统 TTS 模型,Qwen-TTS 在真实感和表现力上几乎无差别,甚至在特定评测 (如 SeedTTS-Eval) 中达到业内顶尖水平。这得益于其背后大规模语料库的训练支持,以及通义团队在语音合成算法上的持续优化。

行业影响与未来前景

Qwen-TTS 的发布进一步推动了语音合成技术的普及与应用。无论是为影视配音、虚拟主播,还是提供更自然的交互体验,Qwen-TTS 都展现了巨大潜力。AIbase 认为,随着语音合成技术在真实感上的差距逐渐缩小,方言支持和个性化音色的创新将成为未来竞争的关键。通义团队此次通过 API 开放 Qwen-TTS,不仅降低了使用门槛,也为开发者提供了更多创作空间。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

TEN Agent 开源 TEN VAD 与 Turn Detection,助力语音 AI 超低延迟

2025-7-2 1:21:48

AI 资讯

Cursor 发布 Web 版,AI 编码工具扩展至浏览器与移动端

2025-7-2 1:22:07

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索