微软开源 VibeVoice TTS 模型：90 分钟超长语音，可 4 人对话，中文效果惊艳！

AI 资讯
25 年 8 月 27 日
编辑

小强

近日，微软推出了一款备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发了 AI 语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能，为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下，AIbase 将为您详细解析 VibeVoice 的亮点与潜力。

支持 90 分钟超长语音生成，突破时长限制

VibeVoice 模型在语音生成时长上实现了重大突破，可一次性生成长达 90 分钟的连续语音。这一特性尤其适合需要长时间音频输出的场景，如播客、有声书和教育内容制作。相比传统 TTS 模型的时长限制，VibeVoice 的超长生成能力为内容创作者提供了更大的灵活性和创作空间。

多人对话新高度，最多支持 4 人语音

与以往 TTS 模型仅支持单人或双人对话的局限不同，VibeVoice 能够流畅生成最多 4 人的对谈语音。这一功能在模拟多人播客、会议录音或虚拟角色互动等场景中表现出色。得益于其在语音一致性和自然轮转上的优化，VibeVoice 生成的多人对话语音自然流畅，几乎可媲美真人录音效果。

中文语音效果优异，助力本土化应用

对于中文市场，VibeVoice 展现了令人印象深刻的表现。其支持中文语音合成，且在语调、发音准确性和自然度上均达到了高水平。这使得 VibeVoice 在中文播客、教育培训、智能客服等领域具有广泛的应用潜力，为开发者提供了高质量的本土化语音解决方案。

支持背景音乐，打造沉浸式播客体验

VibeVoice 的另一大亮点是支持生成带背景音乐的播客音频。这一功能让内容创作者能够轻松为语音添加背景音效，打造更具沉浸感和专业性的音频内容。无论是轻松的背景旋律还是紧张的氛围音效，VibeVoice 都能无缝融合，为听众带来更丰富的听觉体验。

开源赋能开发者，未来应用前景广阔

作为一款开源模型，VibeVoice 已于 2025 年 8 月 26 日在 GitHub 正式发布，开发者可自由获取并进行二次开发。微软此次开源的举措，不仅降低了高质量 TTS 技术的使用门槛，也为全球 AI 开发者社区注入了新的活力。无论是个人创作者还是企业用户，都可以通过 VibeVoice 快速构建创新的语音应用。

地址：https://huggingface.co/microsoft/VibeVoice-1.5B

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

微软开源 VibeVoice TTS 模型：90 分钟超长语音，可 4 人对话，中文效果惊艳！

豆包正式上线未成年人保护模式

国产大模型崛起，智能体引领 AI 新时代！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

豆包正式上线未成年人保护模式

国产大模型崛起，智能体引领 AI 新时代！

DeepSeek 是什么？

蚂蚁国际发布 AI 金融平台 Cockpit，开启智能代理驱动的新金融时代

​零售行业的未来：全球首个开源 VLA 大模型 GroceryVLA 正式发布

​硅基流动完成数亿元融资，用户数突破 600 万

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

零售行业的未来：全球首个开源 VLA 大模型 GroceryVLA 正式发布

硅基流动完成数亿元融资，用户数突破 600 万