Qwen-TTS 重磅发布：方言语音合成新突破，真实感媲美真人

AI 资讯
25 年 7 月 2 日
编辑

小强

昨日，阿里巴巴通义团队正式推出了 Qwen-TTS 模型，这款文本转语音（TTS）模型以其超高真实感和多方言支持引发行业热议。AIbase 编辑团队整理最新信息，为您深入解析这款通过 QwenAPI 提供服务的语音合成利器，及其在 AI 语音技术领域的突破性意义。

Qwen-TTS: 超真实语音合成

Qwen-TTS 是通义团队基于大规模语音数据集研发的最新文本转语音模型，通过数百万小时的语音训练，生成的声音在自然度、韵律、节奏和情感表达上达到了极高水平。用户通过 QwenAPI 即可体验到接近真人发声的语音效果，适用于教育、娱乐、智能客服等多种场景。

图源备注：图片由 AI 生成

支持多方言与双语声音

Qwen-TTS 的亮点之一是其多样化的语言支持。模型不仅支持标准普通话，还覆盖了北京话、上海话和四川话三种中文方言，为用户提供更具地域特色的语音体验。此外，Qwen-TTS 提供七种中英双语音色，包括 Cherry、Ethan、Chelsie、Serena、Dylan、Jada 和 Sunny，每种音色都经过精心调校，确保发音地道且富有表现力。这种多方言、多音色的设计极大拓展了模型的应用场景，满足不同文化背景用户的需求。

技术突破: 流式输出与情感调节

Qwen-TTS 支持流式音频输出，能够根据输入文本动态调整语调、语速和情感变化，生成的声音不仅真实，还能传递细腻的情感表达。相较于传统 TTS 模型，Qwen-TTS 在真实感和表现力上几乎无差别，甚至在特定评测（如 SeedTTS-Eval）中达到业内顶尖水平。这得益于其背后大规模语料库的训练支持，以及通义团队在语音合成算法上的持续优化。

行业影响与未来前景

Qwen-TTS 的发布进一步推动了语音合成技术的普及与应用。无论是为影视配音、虚拟主播，还是智能助手提供更自然的交互体验，Qwen-TTS 都展现了巨大潜力。AIbase 认为，随着语音合成技术在真实感上的差距逐渐缩小，方言支持和个性化音色的创新将成为未来竞争的关键。通义团队此次通过 API 开放 Qwen-TTS，不仅降低了使用门槛，也为开发者提供了更多创作空间。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Qwen-TTS 重磅发布：方言语音合成新突破，真实感媲美真人

TEN Agent 开源 TEN VAD 与 Turn Detection，助力语音 AI 超低延迟

Cursor 发布 Web 版，AI 编码工具扩展至浏览器与移动端

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

TEN Agent 开源 TEN VAD 与 Turn Detection，助力语音 AI 超低延迟

Cursor 发布 Web 版，AI 编码工具扩展至浏览器与移动端

​人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration

Claudia 发布！优雅界面赋能 Claude Code，跨平台 AI 编程新体验

周鸿祎：AI 再强大也无法取代人类的三大能力

全球独角兽榜单出炉！SpaceX、字节跳动和 OpenAI 荣登前三甲

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration