ICDAR(International Conference on Document Analysis and Recognition)数据集概述
ICDAR 是文档分析与识别领域的国际顶级会议,自 2003 年起每两年会组织一次 Robust Reading Competition,并随比赛公开发布一批高质量、标注精细的文本图像数据集。这些数据集已成为学术界和工业界评估场景文本检测、识别、端到端 OCR、视频文字等任务的标准基准。
1. 主要数据集及其特点
| 版本 | 发布年份 | 任务类型 | 规模(图像/标注) | 语言/场景 | 关键特征 |
|---|---|---|---|---|---|
| ICDAR 2003 / 2005 | 2003、2005 | 文本检测、识别(主要英文) | 约 500 张图像 | 英文自然场景 | 早期基准,标注为水平矩形 |
| ICDAR 2011 – Born‑Digital | 2011 | 文档/网页生成的数字图像 | 约 1,000 张 | 多语言(英文、法文、西班牙文) | 关注数字生成文本 |
| ICDAR 2013 – Focused Scene Text | 2013 | 场景文本检测 | 462 张训练 + 462 张测试 | 英文、部分西班牙文、法文 | 高分辨率自然场景,标注为四边形 |
| ICDAR 2015 – Incidental Scene Text | 2015 | 任意方向、倾斜、模糊的场景文本 | 1,670 张图像(公开 1,500 张,训练 1,000 + 测试 500) | 多语言、复杂光照、不同视角(Google Glass 捕获) | 四边形/多边形标注,难度显著提升 |
| ICDAR 2017 – MLT (Multi‑Language Text) | 2017 | 多语言场景文本检测与识别 | 7,200 张图像(约 9,000 文本实例) | 9 种语言(中文、英文、阿拉伯文、日文等) | 支持多语言 OCR,标注为多边形 |
| ICDAR 2019 – SROIE (Scanned Receipts OCR) | 2019 | 发票/收据等文档 OCR | 约 1,000 张扫描件 | 中文、英文 | 侧重工业文档,提供关键字段标注 |
| ICDAR 2021 | 2021 | 手写文字、文档恢复等多任务 | 包含 6 大主题数据集,覆盖手写、版面分析等 | 多语言 | 继续扩展手写与版面任务 |
| ICDAR 2023 – 2024 | 2023‑2024 | 新增非拉丁语言(如 Swahili)等 | 具体规模随比赛公布 | Swahili 等非洲语言 | 推动低资源语言 OCR 研究 |
注:上述规模为公开部分,部分数据集(如 2015 年的 170 张私有图像)仅供评审使用。
2. 标注格式与下载渠道
| 数据集 | 标注形式 | 下载入口 |
|---|---|---|
| 2013、2015、2017 等 | 四边形(quadrilateral)或多边形(polygon)坐标 + 文本内容 | 官方 Robust Reading Competition 网站 <https://rrc.cvc.uab.es/ >(各年份在 “Challenges” 页面可切换) |
| 2015(Incidental) | 通过注册后可在 https://rrc.cvc.uab.es/?ch=4&com=downloads 下载 | |
| 2017 MLT | Zenodo 公开数据集页面(如 <https://zenodo.org/record/xxxx >)可直接下载,亦在 RRC 网站列出 | |
| 2019 SROIE | 通过 https://rrc.cvc.uab.es/?ch=5&com=downloads 获取 | |
| 2021 及以后 | 同样在 RRC 主站提供下载链接,或在对应论文的附录中给出 Zenodo / GitHub 链接 |
标注文件通常为 .txt(每行:x1,y1,x2,y2,x3,y3,x4,y4,text)或 .json(多边形坐标 + 文本字段),便于直接用于深度学习框架(如 Detectron2、MMOCR)。
3. 常见研究任务与应用场景
- 文本检测(Text Detection):定位图像中所有文字区域,常用指标为 Precision/Recall 与 H‑mean。
- 文本识别(Text Recognition):对检测到的文字区域进行字符/单词级别的识别。
- 端到端 OCR(End‑to‑End):检测 + 识别一体化流程,评估整体系统的准确率。
- 视频文字(Video Text):在连续帧中追踪文字,ICDAR 2015 及以后均提供视频子任务。
- 多语言/跨语言 OCR:ICDAR 2017 MLT、2024 Swahili‑text 等推动了非拉丁文字的研究。
- 工业文档(票据、发票):ICDAR 2019 SROIE 为金融、零售等行业的自动化提供基准。
这些任务在 智能交通、移动阅读、增强现实、文档数字化、金融票据自动化 等实际场景中都有直接落地的需求。
4. 如何快速上手
- 获取数据:访问 RRC 官网,选择对应年份的 Challenge,完成注册后下载图像与标注压缩包。
- 解压并检查结构:通常
train_images/、train_gts/(或train_labels/)分别存放图像和标注文件。 - 转换标注(如需)
# 示例:将 ICDAR 2015 四边形 txt 转为 COCO JSON import json, os def txt_to_coco(txt_dir, img_dir, out_path): coco = {"images": [], "annotations": [], "categories": [{"id":1,"name":"text"}]} ann_id = 1 for i, txt_file in enumerate(os.listdir(txt_dir)): img_name = txt_file.replace('.txt', '.jpg') img_path = os.path.join(img_dir, img_name) # 读取图像尺寸(省略) coco["images"].append({"id":i+1, "file_name":img_name, "width":w, "height":h}) with open(os.path.join(txt_dir, txt_file), 'r', encoding='utf-8') as f: for line in f: parts = line.strip().split(',') poly = list(map(float, parts[:8])) text = ','.join(parts[8:]) coco["annotations"].append({ "id": ann_id, "image_id": i+1, "category_id": 1, "segmentation": [poly], "bbox": [min(poly[0::2]), min(poly[1::2]), max(poly[0::2])-min(poly[0::2]), max(poly[1::2])-min(poly[1::2])], "iscrowd": 0, "area": (max(poly[0::2])-min(poly[0::2]))* (max(poly[1::2])-min(poly[1::2])), "text": text }) ann_id += 1 with open(out_path, 'w', encoding='utf-8') as f: json.dump(coco, f, ensure_ascii=False, indent=2)该脚本可直接用于 MMDetection、Detectron2 等框架的训练准备。
- 基准模型:MMOCR、EAST、Mask‑TextSpotter、CRAFT 等均提供对 ICDAR 系列的预训练权重,可直接 fine‑tune。
5. 推荐阅读与资源链接
- 官方 RRC(Robust Reading Competition)主页:
- ICDAR 2015 数据集下载页面(需注册):https://rrc.cvc.uab.es/?ch=4&com=downloads
- ICDAR 2017 MLT 数据集(Zenodo):<https://zenodo.org/record/xxxx >(在 RRC 2017 章节列出)
- ICDAR 2019 SROIE(票据):<https://rrc.cvc.uab.es/?ch=5&com=downloads >(RRC 2019)
- 最新 2024 Swahili‑text 数据集(华中大)报道:
小结
ICDAR 数据集是 OCR 与文档分析领域最具影响力的基准集合,覆盖从早期的英文水平文本到如今的多语言、视频、工业票据等多样化任务。通过官方 RRC 网站即可获取最新、最完整的下载链接,配合标准的四边形/多边形标注格式,研究者可以快速构建、评估和对比文本检测与识别模型。希望上述概述能帮助你快速定位所需数据并开展实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!