英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英伟达（NVIDIA）于 2025 年 6 月 3 日正式发布 LlamaNemotronNanoVL，一款专为文档智能处理优化的紧凑型视觉-语言模型 (VLM)。该模型在 OCRBenchv2 基准测试中荣登榜首，展现了其在处理复杂文档、图表和视频帧方面的卓越能力。凭借高效的推理性能和灵活的部署方式，LlamaNemotronNanoVL 为企业提供了从云端到边缘设备的高精度文档处理解决方案。

LlamaNemotronNanoVL: 紧凑高效的文档处理利器

LlamaNemotronNanoVL 基于 Meta 的 Llama3.1 架构，结合轻量级视觉编码器 CRadioV2-H，参数规模仅为 8B，却在文档理解任务中表现出色。该模型支持多模态输入，覆盖多页文档、扫描表格、财务报告和技术图表等复杂场景，上下文长度可达 16K 令牌，适用于长文档处理和多跳推理任务。

其核心优势在于高效推理性能，通过 AWQ4bit 量化技术，模型可在单块 NVIDIARTXGPU 或 JetsonOrin 边缘设备上运行，显著降低部署成本。这使得 LlamaNemotronNanoVL 成为需要在资源受限环境中运行 AI 代理的企业的理想选择。

OCRBenchv2 登顶，文档解析能力领先

LlamaNemotronNanoVL 在 OCRBenchv2 基准测试中取得最高分，超越同类紧凑型视觉-语言模型。OCRBenchv2 包含超过 10，000 个人工验证的问答对，覆盖金融、医疗、法律和科学出版等领域的文档，测试内容包括光学字符识别（OCR）、表格解析和图表推理。

该模型在提取结构化数据（如表格和键值对）以及回答基于布局的问题方面表现出色，尤其在非英语文档和低质量扫描场景下展现了强大的鲁棒性。这种高精度和泛化能力使其在自动化文档问答、智能 OCR 和信息提取等场景中具有广泛应用前景。

灵活部署，赋能企业多场景应用

LlamaNemotronNanoVL 支持从数据中心到边缘设备的灵活部署，兼容 NVIDIA 的 TensorRT-LLM 框架，确保在 GPU 加速系统上的高效运行。企业可通过 NVIDIANeMo 微服务对其进行定制，适配特定领域需求，如财务分析、医疗记录处理或法律文档审核。

此外，该模型支持单图和视频推理，适用于图像摘要、文本-图像分析和交互式问答等任务。其开源特性（遵循 NVIDIAOpenModelLicense 和 Llama3.1CommunityLicense）允许商业用途，为开发者提供了构建定制化 AI 代理的自由。

英伟达在智能代理领域的战略布局

LlamaNemotronNanoVL 是英伟达 Nemotron 模型家族的重要组成部分，体现了其在智能代理（AgenticAI）领域的持续投入。通过结合 Llama 架构和英伟达的优化技术，该模型不仅提升了推理效率，还在文档处理领域树立了新标杆。

英伟达还计划通过 NeMo 框架和 NIM 微服务进一步扩展模型功能，支持更多多模态任务，如视频搜索和物理感知视频生成。这表明英伟达正致力于构建一个覆盖从边缘到云端的全面 AI 生态，为企业数字化转型提供强大支持。

LlamaNemotronNanoVL 的发布标志着紧凑型视觉-语言模型在企业级应用中的新突破。其高效性和高精度为自动化文档处理、知识管理和智能协作开辟了新可能。AIbase 将持续跟踪英伟达在 AI 领域的最新进展，为读者提供前沿技术洞察。

入口:https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

美国商务部重组人工智能安全研究所，移除「安全」一词

OpenAI 宣布 ChatGPT 推出 MCP 支持与会议记录功能

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

美国商务部重组人工智能安全研究所，移除 「安全」 一词

OpenAI 宣布 ChatGPT 推出 MCP 支持与会议记录功能

Trae - 字节跳动推出的 AI 编程工具

如何在本地部署 DeepSeek 模型？

哩布哩布 AI- 中国领先的 AI 创作平台

​亚马逊计划测试人形机器人，探索包裹配送自动化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

美国商务部重组人工智能安全研究所，移除「安全」一词

亚马逊计划测试人形机器人，探索包裹配送自动化