开源语音大模型 「Step-Audio 2 mini」 发布!听得清楚、说得自然

近日,阶跃星辰正式推出了最新的端到端语音——Step-Audio2mini。这款模型在多个国际基准测试中表现优异,获得了 SOTA(最先进技术) 成绩,令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大,还首次将音频推理和生成统一建模,为、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU(多模态音频理解测试集) 上,该模型以 73.2 的得分稳居开源语音模型的榜首。在口语对话能力的 UROBench 测试中,无论基础赛道还是专业赛道,Step-Audio2mini 都取得了开源模型中的最高分,展现出其出色的对话理解与表达能力。

在中英互译任务中,Step-Audio2mini 也表现不俗。在 CoVoST2 和 CVSS 评测集上,分别获得了 39.3 和 29.1 的高分,明显超越了 -4oAudio 和其他开源语音模型。此外,该模型在语音识别方面同样出类拔萃,在开源中文测试集上的字错误率 (CER) 为 3.19,在开源英语测试集上的词错误率 (WER) 为 3.50,领先其他开源模型超过 15%。

Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR(自动语音识别)、() 和 TTS() 的三级结构,实现了从原始音频输入到语音响应输出的直接转换,简化了架构,降低了延迟。此外,模型还引入了链式思维推理 (CoT) 与强化学习的联合优化技术,使其能够更好地理解情绪、语调等副语言信息,并自然地作出反应。

值得一提的是,Step-Audio2mini 还支持音频知识增强功能,能够利用外部工具进行联网搜索,解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性,还扩展了其在多种场景中的应用潜力。

目前,Step-Audio2mini 已在 GitHub、 等平台上线,欢迎开发者们前去试用和贡献代码!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Anthropic 证实:Claude Opus 4.1 和 Opus 4 模型出现 「降智」 现象,已紧急修复!

2025-9-2 1:22:08

AI 资讯

​BBC 调查:网络诈骗团伙利用 AI 制造虚假大屠杀图像,扰乱历史记忆

2025-9-2 1:22:25

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索