开源语音大模型「Step-Audio 2 mini」发布！听得清楚、说得自然

AI 资讯
25 年 9 月 2 日
编辑

小强

近日，阶跃星辰正式推出了最新的开源端到端语音大模型——Step-Audio2mini。这款模型在多个国际基准测试中表现优异，获得了 SOTA（最先进技术）成绩，令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU（多模态音频理解测试集）上，该模型以 73.2 的得分稳居开源语音模型的榜首。在口语对话能力的 UROBench 测试中，无论基础赛道还是专业赛道，Step-Audio2mini 都取得了开源模型中的最高分，展现出其出色的对话理解与表达能力。

在中英互译任务中，Step-Audio2mini 也表现不俗。在 CoVoST2 和 CVSS 评测集上，分别获得了 39.3 和 29.1 的高分，明显超越了 GPT-4oAudio 和其他开源语音模型。此外，该模型在语音识别方面同样出类拔萃，在开源中文测试集上的字错误率（CER）为 3.19，在开源英语测试集上的词错误率 (WER) 为 3.50，领先其他开源模型超过 15%。

Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR（自动语音识别）、LLM(大语言模型) 和 TTS(文本转语音) 的三级结构，实现了从原始音频输入到语音响应输出的直接转换，简化了架构，降低了延迟。此外，模型还引入了链式思维推理 (CoT) 与强化学习的联合优化技术，使其能够更好地理解情绪、语调等副语言信息，并自然地作出反应。

值得一提的是，Step-Audio2mini 还支持音频知识增强功能，能够利用外部工具进行联网搜索，解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性，还扩展了其在多种场景中的应用潜力。

目前，Step-Audio2mini 已在 GitHub、HuggingFace 等平台上线，欢迎开发者们前去试用和贡献代码!

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

开源语音大模型「Step-Audio 2 mini」发布！听得清楚、说得自然

Anthropic 证实：Claude Opus 4.1 和 Opus 4 模型出现「降智」现象，已紧急修复！

BBC 调查：网络诈骗团伙利用 AI 制造虚假大屠杀图像，扰乱历史记忆

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Anthropic 证实：Claude Opus 4.1 和 Opus 4 模型出现 「降智」 现象，已紧急修复！

​BBC 调查：网络诈骗团伙利用 AI 制造虚假大屠杀图像，扰乱历史记忆

李开复预测：中国大模型未来或只剩三大巨头

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英国电影协会警告：AI 技术对影视行业构成直接威胁

豆包 App「一句话 P 图」 功能全新升级 基于 SeedEdit 3.0 实现全面优化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Anthropic 证实：Claude Opus 4.1 和 Opus 4 模型出现「降智」现象，已紧急修复！

BBC 调查：网络诈骗团伙利用 AI 制造虚假大屠杀图像，扰乱历史记忆

豆包 App「一句话 P 图」功能全新升级基于 SeedEdit 3.0 实现全面优化