什么是ICDAR数据集

AI解读 4个月前硕雀

64 0 0

ICDAR（International Conference on Document Analysis and Recognition）数据集概述

ICDAR 是文档分析与识别领域的国际顶级会议，自 2003 年起每两年会组织一次 Robust Reading Competition，并随比赛公开发布一批高质量、标注精细的文本图像数据集。这些数据集已成为学术界和工业界评估场景文本检测、识别、端到端 OCR、视频文字等任务的标准基准。

1. 主要数据集及其特点

版本	发布年份	任务类型	规模（图像/标注）	语言/场景	关键特征
ICDAR 2003 / 2005	2003、2005	文本检测、识别（主要英文）	约 500 张图像	英文自然场景	早期基准，标注为水平矩形
ICDAR 2011 – Born‑Digital	2011	文档/网页生成的数字图像	约 1,000 张	多语言（英文、法文、西班牙文）	关注数字生成文本
ICDAR 2013 – Focused Scene Text	2013	场景文本检测	462 张训练 + 462 张测试	英文、部分西班牙文、法文	高分辨率自然场景，标注为四边形
ICDAR 2015 – Incidental Scene Text	2015	任意方向、倾斜、模糊的场景文本	1,670 张图像（公开 1,500 张，训练 1,000 + 测试 500）	多语言、复杂光照、不同视角（Google Glass 捕获）	四边形/多边形标注，难度显著提升
ICDAR 2017 – MLT (Multi‑Language Text)	2017	多语言场景文本检测与识别	7,200 张图像（约 9,000 文本实例）	9 种语言（中文、英文、阿拉伯文、日文等）	支持多语言 OCR，标注为多边形
ICDAR 2019 – SROIE (Scanned Receipts OCR)	2019	发票/收据等文档 OCR	约 1,000 张扫描件	中文、英文	侧重工业文档，提供关键字段标注
ICDAR 2021	2021	手写文字、文档恢复等多任务	包含 6 大主题数据集，覆盖手写、版面分析等	多语言	继续扩展手写与版面任务
ICDAR 2023 – 2024	2023‑2024	新增非拉丁语言（如 Swahili）等	具体规模随比赛公布	Swahili 等非洲语言	推动低资源语言 OCR 研究

注：上述规模为公开部分，部分数据集（如 2015 年的 170 张私有图像）仅供评审使用。

2. 标注格式与下载渠道

数据集	标注形式	下载入口
2013、2015、2017 等	四边形（quadrilateral）或多边形（polygon）坐标 + 文本内容	官方 Robust Reading Competition 网站 <https://rrc.cvc.uab.es/ >（各年份在 “Challenges” 页面可切换）
2015（Incidental）	通过注册后可在 https://rrc.cvc.uab.es/?ch=4&com=downloads 下载
2017 MLT	Zenodo 公开数据集页面（如 <https://zenodo.org/record/xxxx >）可直接下载，亦在 RRC 网站列出
2019 SROIE	通过 https://rrc.cvc.uab.es/?ch=5&com=downloads 获取
2021 及以后	同样在 RRC 主站提供下载链接，或在对应论文的附录中给出 Zenodo / GitHub 链接

标注文件通常为 .txt（每行：x1,y1,x2,y2,x3,y3,x4,y4,text）或 .json（多边形坐标 + 文本字段），便于直接用于深度学习框架（如 Detectron2、MMOCR）。

3. 常见研究任务与应用场景

文本检测（Text Detection）‍：定位图像中所有文字区域，常用指标为 Precision/Recall 与 H‑mean。
文本识别（Text Recognition）‍：对检测到的文字区域进行字符/单词级别的识别。
端到端 OCR（End‑to‑End）‍：检测 + 识别一体化流程，评估整体系统的准确率。
视频文字（Video Text）‍：在连续帧中追踪文字，ICDAR 2015 及以后均提供视频子任务。
多语言/跨语言 OCR：ICDAR 2017 MLT、2024 Swahili‑text 等推动了非拉丁文字的研究。
工业文档（票据、发票）‍：ICDAR 2019 SROIE 为金融、零售等行业的自动化提供基准。

这些任务在 智能交通、移动阅读、增强现实、文档数字化、金融票据自动化 等实际场景中都有直接落地的需求。

4. 如何快速上手

获取数据：访问 RRC 官网，选择对应年份的 Challenge，完成注册后下载图像与标注压缩包。
解压并检查结构：通常 train_images/、train_gts/（或 train_labels/）分别存放图像和标注文件。

转换标注（如需）

# 示例：将 ICDAR 2015 四边形 txt 转为 COCO JSON
import json, os
def txt_to_coco(txt_dir, img_dir, out_path):
    coco = {"images": [], "annotations": [], "categories": [{"id":1,"name":"text"}]}
    ann_id = 1
    for i, txt_file in enumerate(os.listdir(txt_dir)):
        img_name = txt_file.replace('.txt', '.jpg')
        img_path = os.path.join(img_dir, img_name)
        # 读取图像尺寸（省略）
        coco["images"].append({"id":i+1, "file_name":img_name, "width":w, "height":h})
        with open(os.path.join(txt_dir, txt_file), 'r', encoding='utf-8') as f:
            for line in f:
                parts = line.strip().split(',')
                poly = list(map(float, parts[:8]))
                text = ','.join(parts[8:])
                coco["annotations"].append({
                    "id": ann_id,
                    "image_id": i+1,
                    "category_id": 1,
                    "segmentation": [poly],
                    "bbox": [min(poly[0::2]), min(poly[1::2]),
                             max(poly[0::2])-min(poly[0::2]),
                             max(poly[1::2])-min(poly[1::2])],
                    "iscrowd": 0,
                    "area": (max(poly[0::2])-min(poly[0::2]))*
                            (max(poly[1::2])-min(poly[1::2])),
                    "text": text
                })
                ann_id += 1
    with open(out_path, 'w', encoding='utf-8') as f:
        json.dump(coco, f, ensure_ascii=False, indent=2)

该脚本可直接用于 MMDetection、Detectron2 等框架的训练准备。

基准模型：MMOCR、EAST、Mask‑TextSpotter、CRAFT 等均提供对 ICDAR 系列的预训练权重，可直接 fine‑tune。

5. 推荐阅读与资源链接

官方 RRC（Robust Reading Competition）主页：
ICDAR 2015 数据集下载页面（需注册）：https://rrc.cvc.uab.es/?ch=4&com=downloads
ICDAR 2017 MLT 数据集（Zenodo）‍：<https://zenodo.org/record/xxxx >（在 RRC 2017 章节列出）
ICDAR 2019 SROIE（票据）‍：<https://rrc.cvc.uab.es/?ch=5&com=downloads >（RRC 2019）
最新 2024 Swahili‑text 数据集（华中大）报道：

小结
ICDAR 数据集是 OCR 与文档分析领域最具影响力的基准集合，覆盖从早期的英文水平文本到如今的多语言、视频、工业票据等多样化任务。通过官方 RRC 网站即可获取最新、最完整的下载链接，配合标准的四边形/多边形标注格式，研究者可以快速构建、评估和对比文本检测与识别模型。希望上述概述能帮助你快速定位所需数据并开展实验。

ICDAR ICDAR数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是ICDAR数据集

1. 主要数据集及其特点

2. 标注格式与下载渠道

3. 常见研究任务与应用场景

4. 如何快速上手

5. 推荐阅读与资源链接

什么是Ovis-Image

什么是Eons Data

什么是ICDAR数据集

1. 主要数据集及其特点

2. 标注格式与下载渠道

3. 常见研究任务与应用场景

4. 如何快速上手

5. 推荐阅读与资源链接

什么是Ovis-Image

什么是Eons Data

什么是Eons Data