阿里通义 Fun-ASR 语音模型升级 垂直领域识别率跃升超 15%

阿里通义正式推出新一代端到端大模型 Fun-ASR,该模型通过强化上下文感知与高精度转写能力,在家装、保险等垂直行业场景中实现语音识别准确率超 15% 的突破性提升。实测数据显示,保险行业准确率较前代提升 18%,家装、畜牧等领域增幅达 15%-20%。

作为驱动的语音识别算法,Fun-ASR 采用自研语音算法与 Qwen3 监督微调技术,结合前沿模型架构与文本模态对齐技术,在保持语言处理优势的同时,集成 RAG 检索增强方案,支持超 1000 个自定义热词导入。该功能可自动匹配音频中的领域热词、历史文档及上下文记录,显著优化特定场景下的关键词识别效果。

针对语音识别中的噪声干扰、语种混淆及生成幻觉等痛点,研发团队创新性引入强化学习 (RL) 技术,通过动态优化策略减少识别误差,系统稳定性与可靠性获实质性提升。值得关注的是,模型在四川话、粤语、闽南语等方言识别中表现优于同类产品,同时适应远场拾音、近场降噪等复杂声学环境,覆盖会议室、工位、超市、户外等多元场景。

训练数据层面,Fun-ASR 基于上亿小时音频数据构建,深度融合互联网、科技、畜牧、汽车等十余个领域的专业术语库。这一数据优势使其在垂直行业识别中展现出显著优势,例如在畜牧行业可精准识别牲畜叫声与环境噪声中的关键指令。

阿里通义技术团队表示,Fun-ASR 的进化标志着语音识别技术从通用场景向专业化、场景化深度渗透。随着模型在更多行业落地,其动态热词更新与多模态交互能力将进一步推动语音交互效率革新。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

俄罗斯 HapticVLM 系统震撼问世!触觉识别准确率 84.7%,开启人机交互新纪元

2025-8-23 1:23:23

AI 资讯

马斯克 xAI 开源 Grok 2.5:Grok 3 将于半年后开源

2025-8-25 1:20:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索