什么是PaddleOCR‑VL

PaddleOCR‑VL 概述
PaddleOCR‑VL 是百度飞桨（PaddlePaddle）团队在 2025 年推出的面向文档解析的视觉‑语言模型（Vision‑Language Model，VLM），是 PaddleOCR 系列的最新成员。它在保持 0.9 B 参数规模 的同时，融合了 NaViT 动态分辨率视觉编码器 与 ERNIE‑4.5‑0.3 B 轻量语言模型，实现了 高精度 + 低算力 的平衡，能够在多语言、多版面、复杂元素（表格、公式、图表、手写体）等场景下提供 SOTA 级别的识别效果。

1. 核心技术与架构

组件	技术方案	主要功能
视觉编码器	NaViT 动态分辨率编码器	根据文档复杂度自适应分辨率，保留细节特征，适配不同尺寸的文档图像
语言模型	ERNIE‑4.5‑0.3 B	轻量但具备强语义理解能力，负责文本、表格、公式等的语言层解码
跨模态融合	视觉‑语言对齐机制	将视觉特征映射到语言空间，实现结构化文本输出
两阶段流水线	① PP‑DocLayoutV2 进行版面检测与阅读顺序预测 ② PaddleOCR‑VL‑0.9B 对每个版块进行细粒度识别	兼顾布局分析与内容识别，提升效率与准确率

2. 主要特性

多语言支持：覆盖 109 种语言，包括中、英、法、日、俄、阿拉伯等，能够识别横排、竖排、手写体、艺术字体等多种文字形态。
复杂元素解析：表格（嵌套、合并单元格）、公式、图表、图片中的文字均可精准提取，输出结构化的 Markdown / JSON 文件。
轻量高效：仅 0.9 B 参数，单卡 GPU 推理可达数十帧/秒，CPU 也能运行，适合本地部署和边缘设备。
SOTA 业绩：在公开基准 OmniDocBench v1.5、olmOCR‑Bench 等上取得 92.6 分 的综合领先成绩，超越 GPT‑4o、Gemini‑2.5 Pro 等大型多模态模型。
开源与易部署：代码、模型、示例均已在 GitHub 与 HuggingFace 上公开，提供 命令行、Python API、vLLM 加速 等多种使用方式。

3. 典型应用场景

场景	价值
金融报表、审计	自动抽取表格、数字，生成结构化财务数据
医疗报告	隐私本地化解析，提取关键指标、检查结果
法律文书、合同	多语言文本与条款结构化，提升审查效率
学术文献、历史档案	双栏排版、手写稿、公式识别，支持文献数字化
电商发票、票据	快速批量识别，支持后端 ERP 自动对账

4. 获取方式与重要链接

内容	链接
项目主页（GitHub）	https://github.com/PaddlePaddle/PaddleOCR
模型仓库（HuggingFace）	https://huggingface.co/PaddlePaddle/PaddleOCR-VL
官方文档（技术介绍）	https://www.paddleocr.ai/latest/version3.x/algorithm/PaddleOCR-VL/PaddleOCR-VL.html
技术报告 PDF	https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf
本地部署完整教程	https://www.cnblogs.com/sing1ee/p/19147079/2025-paddleocr-vl-guide
在线体验与 Demo	https://paddleocr.baidubce.com/vl-demo
论文/博客（英文版）	https://stable-learn.com/en/paddleocr-vl-introduction/

5. 小结

PaddleOCR‑VL 通过 视觉‑语言深度融合 与 极致轻量化设计，在多语言文档解析领域树立了新的性能标杆。它兼具 高精度（SOTA）与 低资源消耗，适用于从企业级大规模文档处理到隐私敏感的本地部署场景，是当前最具性价比的文档 OCR 解决方案之一。若有进一步的使用需求（如二次开发、模型微调或部署咨询），可参考上述官方文档与技术报告获取最新、最权威的资料。