OmniDocBench 简介
OmniDocBench 是面向 PDF 文档解析 的综合基准测试,旨在弥补现有评测在文档多样性、标注细粒度和评估维度上的不足。它由上海人工智能实验室、2077AI 等机构联合开源,提供了高质量、细致标注的真实世界文档集合,支持对 端到端系统、单模块组件以及属性层面的多层次评估。
1. 数据规模与多样性
| 项目 | 说明 |
|---|---|
| 文档页数 | 981 页 PDF |
| 文档类型 | 9 类(学术论文、财务报告、报纸、教材、手写笔记、幻灯片、博客等) |
| 布局风格 | 4 种(表格密集型、图文混合型、纯文本型、其他) |
| 语言 | 3 种(中文、英文、混合语种) |
| 标注元素 | 15 种 block 级别(文本段落、标题、表格等)≈ 20 k;4 种 span 级别(行内公式、角标等)≈ 80 k |
| 属性标签 | 页面属性 5 种、文本属性 3 种、表格属性 6 种,覆盖阅读顺序、层级结构等 |
数据来源于网络抓取的约 20 万份 PDF,经过聚类筛选、AI 预标注、人工校正和专家审核四重质控,确保标注质量和一致性。
2. 标注内容
- 文本 OCR:每个文本块提供标准化的文字内容。
- 公式标注:LaTeX 形式的公式标注,支持公式检测与识别。
- 表格标注:提供 LaTeX 与 HTML 两种格式的表格结构标注。
- 阅读顺序:为文档块提供自然阅读顺序信息,便于评估结构化抽取。
- 属性标签:包括页面尺寸、语言、版面密度等,可用于属性层面的细粒度分析。
3. 评估协议与指标
OmniDocBench 设计了 统一的评估流程,包括:
- 端到端评估:对完整的文档解析系统输出进行整体对齐与比较。
- 单模块评估:分别评估布局检测、文本 OCR、表格抽取、公式识别等子任务。
- 属性评估:针对特定属性(如语言、布局类型)进行细分表现分析。
常用指标包括:
- BLEU、METEOR、ROUGE(文本质量)
- 归一化编辑距离(TEDS)(表格/公式结构)
- CDM(Character‑level Detection Metric)(公式识别)
- COCODet、Precision/Recall(布局检测)
4. 使用方式
- 数据获取:官方提供 GitHub 仓库与 Hugging Face 镜像,可直接下载数据集与标注文件。
- GitHub 主仓库:https://github.com/opendatalab/OmniDocBench
- Hugging Face 镜像:https://huggingface.co/datasets/OmniDocBench
- 评估代码:仓库中附带了统一的评估脚本(
evaluate.py),支持多种输出格式的对齐与指标计算,兼容常见 OCR、表格抽取、公式识别模型。 - 基准报告:官方论文《OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations》详细阐述了数据构建、标注流程、评估协议以及基准实验结果,可作为参考文献。
5. 研究价值与应用场景
- 模型对比:提供统一平台,比较传统管道式 OCR/表格/公式工具(如 GOT‑OCR、Mathpix、Docling)与最新视觉语言模型(如 GPT‑4o、InternVL2‑76B)在不同文档类型上的表现。
- 技术迭代:通过属性层面分析,帮助研究者定位模型在特定布局或语言上的薄弱环节,指导后续模型改进。
- 工业落地:企业可基于该基准评估自研文档解析系统的鲁棒性,降低在实际业务(金融报表、学术文献、手写笔记等)中的风险。
6. 关键链接汇总
| 内容 | 链接 |
|---|---|
| 官方 GitHub 仓库 | https://github.com/opendatalab/OmniDocBench |
| Hugging Face 数据集 | https://huggingface.co/datasets/OmniDocBench |
| 论文 PDF(arXiv) | https://arxiv.org/pdf/2412.07626 |
| 评测报告(中文) | https://cloud.tencent.com/developer/news/2427638 |
| 项目介绍(CSDN) | https://blog.csdn.net/gitblog_00511/article/details/146587276 |
总结
OmniDocBench 通过大规模、多语言、多布局的真实 PDF 页面,配合细粒度的块级、跨度级标注以及丰富的属性标签,提供了从 整体系统 到 单模块 再到 属性层面 的全方位评估框架。它已成为当前文档解析领域最权威、最全面的基准之一,为学术研究和工业落地提供了统一、可复现的评价标准。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!