阿里国际数字贸易集团 AI 团队发布 Ovis2.5: 经济型视觉推理模型新突破

AI 资讯
25 年 8 月 19 日
编辑

小强

阿里国际数字贸易集团（AIDC）的 AI 团队 (AIDC-AI) 近日发布全新多模态大语言模型 Ovis2.5，提供 9B 和 2B 两种参数规模版本。该模型定位为经济型视觉推理解决方案，在其规模内展现出卓越性能，为多模态 AI 应用树立了新标杆。

Ovis2.5 的核心特性

1.**原生分辨率感知**:Ovis2.5 采用 NaViT 视觉编码器，无需损耗平铺即可保留图像的精细细节和全局结构，确保高质量的视觉处理能力。

2.**深度推理能力**: 模型支持可选的「思考模式」，可能部分复用了阿里 Qwen3 的技术特性。除了线性思维链（CoT）推理外，Ovis2.5 还能进行自我检查和修订，并支持可配置的思考预算，提升问题解决的精准度。

3.**图表与文档 OCR 领先**: 在 9B 和 2B 规模上，Ovis2.5 在复杂图表分析、文档理解（包括表格和表单）以及光学字符识别 (OCR) 领域达到业内领先水平，为实际应用场景提供强大支持。

4.**广泛任务覆盖**: 该模型在图像推理、视频理解和视觉定位基准测试中表现出色，展现了强大的通用多模态能力。

Ovis2.5 的发布彰显了 AIDC-AI 在多模态 AI 技术领域的持续创新。通过在紧凑模型规模内实现高性能，Ovis2.5 为开发者和企业提供了一种高效且易于部署的解决方案，尤其适用于需要视觉与文本推理结合的场景。模型已在 GitHub 和 HuggingFace 等平台开源，进一步推动全球 AI 社区的协作与创新。

此次发布是 AIDC-AI 在 Ovis 系列模型基础上取得的又一重要进展，为多模态大语言模型的发展注入了新的活力。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

阿里国际数字贸易集团 AI 团队发布 Ovis2.5: 经济型视觉推理模型新突破

OpenAI 对用户需求的认知偏差：GPT-5 发布后的反思

Meta 推出 DINOv3：一款无需标注数据的图像分析 AI 模型

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

OpenAI 对用户需求的认知偏差：GPT-5 发布后的反思

​Meta 推出 DINOv3：一款无需标注数据的图像分析 AI 模型

DeepSeek 专家混合模型优势

​报道称马斯克的 AI 初创公司 xAI 获得 TPG 的债务融资支持

​AMD 收购 Brium，向 Nvidia 发起 AI 硬件挑战

英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Meta 推出 DINOv3：一款无需标注数据的图像分析 AI 模型

报道称马斯克的 AI 初创公司 xAI 获得 TPG 的债务融资支持

AMD 收购 Brium，向 Nvidia 发起 AI 硬件挑战