ElevenLabs 推出 V3 声音模型: 支持 70 多种语言,可通过标签控制情感、语气

全球领先的 语音技术公司 正式发布了其最新模型 (Alpha 版),被誉为迄今最具表现力的 AI 语音模型。这一突破性进展不仅提升了语音合成的自然度和情感表达能力,还为和开发者提供了更强大的工具,助力视频、音频书和多媒体工具的开发。

技术突破: 更自然的对话与情感表达

Elevenv3 引入了全新的架构,能够更深入地理解文本语义,显著提升语音的表现力。相比前代模型,v3 支持 70 多种语言,并能处理多角色对话场景,模拟真实交谈中的语气变化、情感起伏甚至中断等自然特性。通过新增的音频标签功能,用户可以直接使用类似 [sad]、[angry]、[whispers] 或 [laughs] 的标签,精确控制语音的情感表达和非语言反应,例如笑声或叹息。这种细粒度的控制为提供了前所未有的灵活性,特别适用于电影配音、音频书制作和游戏语音设计。

应用场景: 赋能创作者与开发者

ElevenLabs 特别强调 v3 模型为内容创作者和媒体工具开发者量身打造。无论是制作引人入胜的视频旁白、情感丰富的音频书,还是开发交互式媒体工具,v3 的高表现力都能显著提升用户体验。此外,模型支持多达 32 个不同说话者的识别与区分,为多人对话场景提供了强大支持。这使得 v3 在教育、娱乐和企业级应用 (如 AI 客服中心) 中具有广泛的应用前景。

公测与优惠: 开发者与创作者的福音

Elevenv3 现已进入公开 Alpha 测试阶段,并于 6 月期间提供 80% 的折扣,鼓励用户体验其强大功能。ElevenLabs 还宣布,v3 的公共 API 即将推出,开发者可通过联系销售团队获得早期访问权限。对于实时和对话场景,ElevenLabs 建议暂时继续使用 v2.5Turbo 或 Flash 模型,v3 的实时版本也在开发中,预计将进一步拓展其应用范围。

行业影响: 引领 AI 语音新潮流

随着 AI 语音技术的快速发展,ElevenLabsv3 的推出无疑加剧了行业竞争。此前,ElevenLabs 凭借其高精度语音克隆和文本转语音技术,已在音频书、配音和 AI 客服领域占据重要地位。v3 的发布进一步巩固了其领先优势,尤其是在与 OpenAIWhisperv3、GoogleGemini2.0 等模型的竞争中,v3 在多语言支持和情感表达上的表现尤为突出。X 平台上已有用户称 v3 为 「地表最强文本转语音模型」,足见其影响力。

ElevenLabs 表示,v3 只是其技术路线图中的一步,未来将持续优化模型性能,推出低延迟版本以支持实时应用,并进一步扩展语言支持和场景适配。 认为,v3 的发布不仅标志着 ElevenLabs 在 AI 语音领域的技术突破,也为内容创作和人机交互开启了全新可能。随着技术的普及,AI 语音有望成为数字内容创作的核心驱动力。

AIbase 将持续关注 ElevenLabs 及 AI 语音技术的最新进展,为您带来前沿资讯。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

谷歌重磅新作!Portraits 让你与虚拟专家对话,解锁沟通与领导力秘籍

2025-6-6 21:14:25

AI 资讯

智源大会发布 「悟界」 系列大模型,加速迈向物理 AGI 时代

2025-6-6 21:14:44

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索