什么是ICDAR数据集

AI解读 2小时前 硕雀
2 0

ICDAR(International Conference on Document Analysis and Recognition)数据集概述

ICDAR 是文档分析与识别领域的国际顶级会议,自 2003 年起每两年会组织一次 Robust Reading Competition,并随比赛公开发布一批高质量、标注精细的文本图像数据集。这些数据集已成为学术界和工业界评估场景文本检测、识别、端到端 OCR、视频文字等任务的标准基准。


1. 主要数据集及其特点

版本 发布年份 任务类型 规模(图像/标注) 语言/场景 关键特征
ICDAR 2003 / 2005 2003、2005 文本检测、识别(主要英文) 约 500 张图像 英文自然场景 早期基准,标注为水平矩形
ICDAR 2011 – Born‑Digital 2011 文档/网页生成的数字图像 约 1,000 张 多语言(英文、法文、西班牙文) 关注数字生成文本
ICDAR 2013 – Focused Scene Text 2013 场景文本检测 462 张训练 + 462 张测试 英文、部分西班牙文、法文 高分辨率自然场景,标注为四边形
ICDAR 2015 – Incidental Scene Text 2015 任意方向、倾斜、模糊的场景文本 1,670 张图像(公开 1,500 张,训练 1,000 + 测试 500) 多语言、复杂光照、不同视角(Google Glass 捕获) 四边形/多边形标注,难度显著提升
ICDAR 2017 – MLT (Multi‑Language Text) 2017 多语言场景文本检测与识别 7,200 张图像(约 9,000 文本实例) 9 种语言(中文、英文、阿拉伯文、日文等) 支持多语言 OCR,标注为多边形
ICDAR 2019 – SROIE (Scanned Receipts OCR) 2019 发票/收据等文档 OCR 约 1,000 张扫描件 中文、英文 侧重工业文档,提供关键字段标注
ICDAR 2021 2021 手写文字、文档恢复等多任务 包含 6 大主题数据集,覆盖手写、版面分析等 多语言 继续扩展手写与版面任务
ICDAR 2023 – 2024 2023‑2024 新增非拉丁语言(如 Swahili)等 具体规模随比赛公布 Swahili 等非洲语言 推动低资源语言 OCR 研究

:上述规模为公开部分,部分数据集(如 2015 年的 170 张私有图像)仅供评审使用。


2. 标注格式与下载渠道

数据集 标注形式 下载入口
2013、2015、2017 等 四边形(quadrilateral)或多边形(polygon)坐标 + 文本内容 官方 Robust Reading Competition 网站 <https://rrc.cvc.uab.es/ >(各年份在 “Challenges” 页面可切换)
2015(Incidental) 通过注册后可在 https://rrc.cvc.uab.es/?ch=4&com=downloads 下载
2017 MLT Zenodo 公开数据集页面(如 <https://zenodo.org/record/xxxx >)可直接下载,亦在 RRC 网站列出
2019 SROIE 通过 https://rrc.cvc.uab.es/?ch=5&com=downloads 获取
2021 及以后 同样在 RRC 主站提供下载链接,或在对应论文的附录中给出 Zenodo / GitHub 链接

标注文件通常为 .txt(每行:x1,y1,x2,y2,x3,y3,x4,y4,text)或 .json(多边形坐标 + 文本字段),便于直接用于深度学习框架(如 Detectron2、MMOCR)。


3. 常见研究任务与应用场景

  1. 文本检测(Text Detection)‍:定位图像中所有文字区域,常用指标为 Precision/Recall 与 H‑mean。
  2. 文本识别(Text Recognition)‍:对检测到的文字区域进行字符/单词级别的识别。
  3. 端到端 OCR(End‑to‑End)‍:检测 + 识别一体化流程,评估整体系统的准确率
  4. 视频文字(Video Text)‍:在连续帧中追踪文字,ICDAR 2015 及以后均提供视频子任务。
  5. 多语言/跨语言 OCR:ICDAR 2017 MLT、2024 Swahili‑text 等推动了非拉丁文字的研究。
  6. 工业文档(票据、发票)‍:ICDAR 2019 SROIE 为金融、零售等行业的自动化提供基准。

这些任务在 智能交通、移动阅读、增强现实、文档数字化、金融票据自动化 等实际场景中都有直接落地的需求。


4. 如何快速上手

  1. 获取数据:访问 RRC 官网,选择对应年份的 Challenge,完成注册后下载图像与标注压缩包。
  2. 解压并检查结构:通常 train_images/train_gts/(或 train_labels/)分别存放图像和标注文件。
  3. 转换标注(如需)
    # 示例:将 ICDAR 2015 四边形 txt 转为 COCO JSON
    import json, os
    def txt_to_coco(txt_dir, img_dir, out_path):
        coco = {"images": [], "annotations": [], "categories": [{"id":1,"name":"text"}]}
        ann_id = 1
        for i, txt_file in enumerate(os.listdir(txt_dir)):
            img_name = txt_file.replace('.txt', '.jpg')
            img_path = os.path.join(img_dir, img_name)
            # 读取图像尺寸(省略)
            coco["images"].append({"id":i+1, "file_name":img_name, "width":w, "height":h})
            with open(os.path.join(txt_dir, txt_file), 'r', encoding='utf-8') as f:
                for line in f:
                    parts = line.strip().split(',')
                    poly = list(map(float, parts[:8]))
                    text = ','.join(parts[8:])
                    coco["annotations"].append({
                        "id": ann_id,
                        "image_id": i+1,
                        "category_id": 1,
                        "segmentation": [poly],
                        "bbox": [min(poly[0::2]), min(poly[1::2]),
                                 max(poly[0::2])-min(poly[0::2]),
                                 max(poly[1::2])-min(poly[1::2])],
                        "iscrowd": 0,
                        "area": (max(poly[0::2])-min(poly[0::2]))*
                                (max(poly[1::2])-min(poly[1::2])),
                        "text": text
                    })
                    ann_id += 1
        with open(out_path, 'w', encoding='utf-8') as f:
            json.dump(coco, f, ensure_ascii=False, indent=2)
    

    该脚本可直接用于 MMDetection、Detectron2 等框架的训练准备。

  4. 基准模型:MMOCR、EAST、Mask‑TextSpotter、CRAFT 等均提供对 ICDAR 系列的预训练权重,可直接 fine‑tune。

5. 推荐阅读与资源链接


小结
ICDAR 数据集是 OCR 与文档分析领域最具影响力的基准集合,覆盖从早期的英文水平文本到如今的多语言、视频、工业票据等多样化任务。通过官方 RRC 网站即可获取最新、最完整的下载链接,配合标准的四边形/多边形标注格式,研究者可以快速构建、评估和对比文本检测与识别模型。希望上述概述能帮助你快速定位所需数据并开展实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!