什么是OmniDocbench基准测试

AI解读 10小时前 硕雀
2 0

OmniDocBench 简介

OmniDocBench 是面向 PDF 文档解析 的综合基准测试,旨在弥补现有评测在文档多样性、标注细粒度和评估维度上的不足。它由上海人工智能实验室、2077AI 等机构联合开源,提供了高质量、细致标注的真实世界文档集合,支持对 端到端系统、单模块组件以及属性层面的多层次评估


1. 数据规模与多样性

项目 说明
文档页数 981 页 PDF
文档类型 9 类(学术论文、财务报告、报纸、教材、手写笔记、幻灯片、博客等)
布局风格 4 种(表格密集型、图文混合型、纯文本型、其他)
语言 3 种(中文、英文、混合语种)
标注元素 15 种 block 级别(文本段落、标题、表格等)≈ 20 k;4 种 span 级别(行内公式、角标等)≈ 80 k
属性标签 页面属性 5 种、文本属性 3 种、表格属性 6 种,覆盖阅读顺序、层级结构等

数据来源于网络抓取的约 20 万份 PDF,经过聚类筛选、AI 预标注、人工校正和专家审核四重质控,确保标注质量和一致性。


2. 标注内容

  • 文本 OCR:每个文本块提供标准化的文字内容。
  • 公式标注LaTeX 形式的公式标注,支持公式检测与识别。
  • 表格标注:提供 LaTeX 与 HTML 两种格式的表格结构标注。
  • 阅读顺序:为文档块提供自然阅读顺序信息,便于评估结构化抽取。
  • 属性标签:包括页面尺寸、语言、版面密度等,可用于属性层面的细粒度分析。

3. 评估协议与指标

OmniDocBench 设计了 统一的评估流程,包括:

  1. 端到端评估:对完整的文档解析系统输出进行整体对齐与比较。
  2. 单模块评估:分别评估布局检测、文本 OCR、表格抽取、公式识别等子任务。
  3. 属性评估:针对特定属性(如语言、布局类型)进行细分表现分析。

常用指标包括:


4. 使用方式

  • 数据获取:官方提供 GitHub 仓库与 Hugging Face 镜像,可直接下载数据集与标注文件。
  • 评估代码:仓库中附带了统一的评估脚本(evaluate.py),支持多种输出格式的对齐与指标计算,兼容常见 OCR、表格抽取、公式识别模型。
  • 基准报告:官方论文《OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations》详细阐述了数据构建、标注流程、评估协议以及基准实验结果,可作为参考文献。

5. 研究价值与应用场景

  • 模型对比:提供统一平台,比较传统管道式 OCR/表格/公式工具(如 GOT‑OCR、Mathpix、Docling)与最新视觉语言模型(如 GPT‑4o、InternVL2‑76B)在不同文档类型上的表现。
  • 技术迭代:通过属性层面分析,帮助研究者定位模型在特定布局或语言上的薄弱环节,指导后续模型改进。
  • 工业落地:企业可基于该基准评估自研文档解析系统的鲁棒性,降低在实际业务(金融报表、学术文献、手写笔记等)中的风险。

6. 关键链接汇总

内容 链接
官方 GitHub 仓库 https://github.com/opendatalab/OmniDocBench
Hugging Face 数据集 https://huggingface.co/datasets/OmniDocBench
论文 PDF(arXiv) https://arxiv.org/pdf/2412.07626
评测报告(中文) https://cloud.tencent.com/developer/news/2427638
项目介绍(CSDN https://blog.csdn.net/gitblog_00511/article/details/146587276

总结
OmniDocBench 通过大规模、多语言、多布局的真实 PDF 页面,配合细粒度的块级、跨度级标注以及丰富的属性标签,提供了从 整体系统 到 单模块 再到 属性层面 的全方位评估框架。它已成为当前文档解析领域最权威、最全面的基准之一,为学术研究和工业落地提供了统一、可复现的评价标准。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!