百度发布全球领先文档解析模型 PaddleOCR-VL，重塑 OCR 技术格局！

AI 资讯
25 年 10 月 18 日
编辑

小强

近日，百度正式发布并开源其自研的多模态文档解析模型 PaddleOCR-VL。这一模型在全球权威的文档解析评测榜单 OmniBenchDocV1.5 中，以 92.6 分的佳绩荣登综合性能全球第一的宝座，展现出其在文本、表格、公式和阅读顺序四大核心能力上的卓越表现。

PaddleOCR-VL 的核心模型参数仅为 0.9B，具有轻量高效的特点，能够在极低的计算开销下，精准识别包括文本、手写汉字、表格、公式及图表等复杂元素。该模型支持 109 种语言，涵盖中文、英语、法语、日语、俄语、阿拉伯语和西班牙语等多种语言场景，适用于政企文档管理、知识检索、档案数字化以及科研信息抽取等多种智能文档处理任务。

作为文心 4.5 的衍生模型，PaddleOCR-VL-0.9B 通过融合 NaViT 动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，成功实现了在精度和效率上的双重突破。具体而言，该模型在 OmniDocBenchv1.5 上的表现极为亮眼，文本编辑距离为 0.035，公式识别的 CDM 为 91.43，表格的 TEDS 达到了 93.52，阅读顺序预测误差值为 0.043，这些数据展示了其在复杂文档、手写稿及历史档案识别等高难度场景中的稳定性和可靠性。

在推理速度方面，PaddleOCR-VL 在一张 A100GPU 上每秒可处理 1881 个 Token，相较于其他主流模型，推理速度有显著提升，较 MinerU2.5 快 14.2%，比 dots.ocr 更是提升了 253.01%。这一表现使得 PaddleOCR-VL 在 OCR 技术中树立了新的标杆。

与传统 OCR 技术不同，PaddleOCR-VL 能够如同人类一样理解复杂的版面结构，精确提取财报表格、数学公式和课堂笔记等多元信息，并自动恢复符合人类阅读习惯的顺序，确保信息传达的准确性和逻辑的清晰性。其创新的两阶段架构，第一阶段负责版面检测与阅读顺序预测，第二阶段则进行文本、表格、公式等元素的识别与结构化输出，这种设计显著提高了识别的稳定性和效率。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

百度发布全球领先文档解析模型 PaddleOCR-VL，重塑 OCR 技术格局！

美国民众对人工智能的担忧超全球水平

OpenAI 与马丁·路德·金遗产公司合作暂停 Sora 生成金博士肖像

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

美国民众对人工智能的担忧超全球水平

OpenAI 与马丁·路德·金遗产公司合作 暂停 Sora 生成金博士肖像

ElevenLabs 推出 Studio 3.0，一站搞定 AI 语音、配乐、音效等

​Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型

钉钉 AI 表格助理正式上线：一句话生成表格，打造企业级 AI 应用平台

​Kimi 推出全新 Agent 模式 「OK Computer」，开启灰度测试

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

OpenAI 与马丁·路德·金遗产公司合作暂停 Sora 生成金博士肖像

Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型

Kimi 推出全新 Agent 模式「OK Computer」，开启灰度测试