什么是Total‑Text数据集

AI解读 5小时前 硕雀
2 0

Total‑Text数据集概述

1. 背景与定位
Total‑Text 是在 2017 年提出的场景文本检测与识别数据集,专门填补了已有基准(如 ICDAR 2013、MSRA‑TD500)中缺少曲线文本的空白。它旨在推动文本检测算法在 任意形状、任意方向(水平、倾斜、弯曲)下的鲁棒性,从而更贴近真实自然场景中的文字分布。

2. 数据规模与划分

  • 图像数量:1 555 张自然场景图片。
  • 标注文本:共 9 330 条单词(平均约 6 条实例/图)。
  • 训练/测试划分:1 255 张用于训练,300 张用于测试。
  • 文本方向:覆盖 水平、多方向(倾斜)和曲线 三类,确保每张测试图至少包含一段弯曲文字。

3. 标注方式

  • 每个单词使用 多边形(8 点)‍ 或 固定 10 点(后续扩展版)来精确描述文字轮廓,支持字级与词级两种粒度。
  • 标注文件采用纯文本格式,每行记录一个单词的坐标与文字内容,便于直接用于检测与端到端识别模型的训练。

4. 评价指标

  • 常用 PrecisionRecall、F‑measure(或 F‑score)来衡量检测与端到端识别的准确性。
  • 多篇后续工作(如 ABCNetPoly‑FRCNNDeconvNet)均在该基准上报告这些指标,以对比不同方法在曲线文本上的表现。

5. 与其他基准的关系

  • Total‑Text 与 SCUT‑CTW1500 共同构成了 ArT(Arbitrary‑shaped Text)‍ 数据集的训练集,形成了更大规模的任意形状文本基准。
  • 其出现推动了后续更大规模的 ArT19CTW1500 等数据集的研发,形成了曲线/任意形状文本检测的完整生态链。

6. 典型研究与基线模型

方法 关键思路 在 Total‑Text 上的表现(F‑measure)
Poly‑FRCNN 基于多边形回归的检测框架 首个在全方向文本上取得较好平衡的基线
DeconvNet(分割式) 采用上采样卷积网络进行像素级分割 对多方向文本检测有效,但在复杂背景下仍有局限
ABCNet 使用自适应 Bezier 曲线参数化并引入 BezierAlign 进行特征对齐 在 Total‑Text 与 CTW1500 上均实现 SOTA 水平,F‑measure 超过 80%
HREPNet(2022) 高分辨金字塔特征融合 在 Total‑Text 上的准确率召回率、F‑value 均超过基准方法 1–4%

这些工作表明,Total‑Text 已成为评估 任意形状文本检测 与 端到端文字识别 的核心基准。

7. 获取方式与使用许可

8. 研究价值与发展趋势

  • 推动方向鲁棒性:通过提供曲线文本,迫使模型摆脱仅针对水平/倾斜文字的假设。
  • 促进端到端框架:标注的多边形与字级信息支持检测‑识别一体化训练,已成为 Scene Text Spotting 研究的标准测试平台。
  • 数据扩展:后续版本加入了固定 10 点标注、更多语言(仍以英文为主)以及更丰富的场景多样性,进一步提升基准的挑战性与实用性。

总结
Total‑Text 是面向 任意形状文本检测与识别 的关键基准数据集,凭借 1 555 张多样化图像、精细多边形标注以及明确的训练/测试划分,已成为学术界与工业界评估曲线文本技术的标准。它不仅提供了评估平台,还通过与其他数据集的组合(如 ArT)形成了完整的任意形状文本生态,推动了从传统水平文本到真实世界复杂文字的技术进步。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!