近日,阶跃星辰正式推出了
Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU(多模态音频理解测试集) 上,该模型以 73.2 的得分稳居开源语音模型的榜首。在口语对话能力的 UROBench 测试中,无论基础赛道还是专业赛道,Step-Audio2mini 都取得了开源模型中的
在中英互译任务中,Step-Audio2mini 也表现不俗。在 CoVoST2 和 CVSS 评测集上,分别获得了 39.3 和 29.1 的高分,明显超越了 GPT-4oAudio 和其他开源语音模型。此外,该模型在语音识别方面同样出类拔萃,在开源中文测试集上的字错误率 (CER) 为 3.19,在开源英语测试集上的词错误率 (WER) 为 3.50,领先其他开源模型超过 15%。
Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR(自动语音识别)、LLM(大语言模型) 和 TTS(文本转语音) 的三级结构,实现了从原始音频输入到语音响应输出的直接转换,简化了架构,降低了延迟。此外,模型还引入了链式思维推理 (CoT) 与强化学习的联合优化技术,使其能够更好地理解情绪、语调等副语言信息,并自然地作出反应。
值得一提的是,Step-Audio2mini 还支持音频知识增强功能,能够利用外部工具进行联网搜索,解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性,还扩展了其在多种场景中的应用潜力。
目前,Step-Audio2mini 已在 GitHub、HuggingFace 等平台上线,欢迎开发者们前去试用和贡献代码!










