阿里通义 Fun-ASR 语音模型升级垂直领域识别率跃升超 15%

AI 资讯
25 年 8 月 24 日
编辑

小强

阿里通义正式推出新一代端到端语音识别大模型 Fun-ASR，该模型通过强化上下文感知与高精度转写能力，在家装、保险等垂直行业场景中实现语音识别准确率超 15% 的突破性提升。实测数据显示，保险行业准确率较前代提升 18%，家装、畜牧等领域增幅达 15%-20%。

作为大语言模型驱动的语音识别算法，Fun-ASR 采用自研语音算法与 Qwen3 监督微调技术，结合前沿模型架构与文本模态对齐技术，在保持语言处理优势的同时，集成 RAG 检索增强方案，支持超 1000 个自定义热词导入。该功能可自动匹配音频中的领域热词、历史文档及上下文记录，显著优化特定场景下的关键词识别效果。

针对语音识别中的噪声干扰、语种混淆及生成幻觉等痛点，研发团队创新性引入强化学习（RL）技术，通过动态优化策略减少识别误差，系统稳定性与可靠性获实质性提升。值得关注的是，模型在四川话、粤语、闽南语等方言识别中表现优于同类产品，同时适应远场拾音、近场降噪等复杂声学环境，覆盖会议室、工位、超市、户外等多元场景。

训练数据层面，Fun-ASR 基于上亿小时音频数据构建，深度融合互联网、科技、畜牧、汽车等十余个领域的专业术语库。这一数据优势使其在垂直行业识别中展现出显著优势，例如在畜牧行业可精准识别牲畜叫声与环境噪声中的关键指令。

阿里通义技术团队表示，Fun-ASR 的进化标志着语音识别技术从通用场景向专业化、场景化深度渗透。随着模型在更多行业落地，其动态热词更新与多模态交互能力将进一步推动语音交互效率革新。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

阿里通义 Fun-ASR 语音模型升级垂直领域识别率跃升超 15%

俄罗斯 HapticVLM 系统震撼问世！触觉识别准确率 84.7%，开启人机交互新纪元

马斯克 xAI 开源 Grok 2.5：Grok 3 将于半年后开源

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

俄罗斯 HapticVLM 系统震撼问世！触觉识别准确率 84.7%，开启人机交互新纪元

马斯克 xAI 开源 Grok 2.5：Grok 3 将于半年后开源

​Snap 推出 Lens Studio iOS 和网页应用，简化 AR 镜头创作流程

美国拟禁止州级人工智能法规，引发对消费者保护的担忧

Sam Altman 预测：2026 AI 发现新知，2027 机器人崛起，2030 智能无限！

苹果 Image Playground 迎来 ChatGPT 助力：AI 图像生成能否绝地反击？

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

Snap 推出 Lens Studio iOS 和网页应用，简化 AR 镜头创作流程