阿里国际数字贸易集团 AI 团队发布 Ovis2.5: 经济型视觉推理模型新突破

阿里国际数字贸易集团 (AIDC) 的 团队 (AIDC-AI) 近日发布全新多模态大语言模型 Ovis2.5,提供 9B 和 2B 两种参数规模版本。该模型定位为经济型视觉推理解决方案,在其规模内展现出卓越性能,为多模态 树立了新标杆。

Ovis2.5 的核心特性

1.**原生分辨率感知**:Ovis2.5 采用 NaViT 视觉编码器,无需损耗平铺即可保留图像的精细细节和全局结构,确保高质量的视觉处理能力。

2.**深度推理能力**: 模型支持可选的 「思考模式」,可能部分复用了阿里 Qwen3 的技术特性。除了线性思维链 (CoT) 推理外,Ovis2.5 还能进行自我检查和修订,并支持可配置的思考预算,提升问题解决的精准度。

3.**图表与文档 OCR 领先**: 在 9B 和 2B 规模上,Ovis2.5 在复杂图表分析、文档理解 (包括表格和表单) 以及光学字符识别 (OCR) 领域达到业内领先水平,为实际应用场景提供强大支持。

4.**广泛任务覆盖**: 该模型在图像推理、视频理解和视觉定位基准测试中表现出色,展现了强大的通用多模态能力。

Ovis2.5 的发布彰显了 AIDC-AI 在多模态 领域的持续创新。通过在紧凑模型规模内实现高性能,Ovis2.5 为开发者和企业提供了一种高效且易于部署的解决方案,尤其适用于需要视觉与文本推理结合的场景。模型已在 GitHub 和 等平台,进一步推动全球 AI 社区的协作与创新。

此次发布是 AIDC-AI 在 Ovis 系列模型基础上取得的又一重要进展,为多模态的发展注入了新的活力。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

OpenAI 对用户需求的认知偏差:GPT-5 发布后的反思

2025-8-19 1:23:57

AI 资讯

​Meta 推出 DINOv3:一款无需标注数据的图像分析 AI 模型

2025-8-19 1:24:23

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索