什么是SynthText数据集

AI解读 5小时前 硕雀
2 0

SynthText 数据集概述

SynthText(全称 Synthetic Text in the Wild)是由牛津大学视觉几何组(Visual Geometry Group)在 2016 年 CVPR 论文《Synthetic Data for Text Localisation in Natural Images》中提出的合成文本数据集。它通过将人工渲染的文字叠加到真实自然场景图像上,模拟真实世界中的文本出现方式,重点考虑局部 3D 场景几何、光照、颜色、扭曲等因素,使生成的图像在视觉上与真实场景高度相似。

项目 内容
规模 约 80 万张 合成图像,包含 约 800 万 合成单词实例
标注 每张图像提供 词级、字符级 边界框以及对应的文字转录;标注文件通常为 gt.mat(MAT‑LAB 格式)
用途 主要用于 自然场景文本检测 与 文本识别 的预训练与评估;在 ICDAR、IC13、IC15 等基准上表现突出
生成方式 - 随机选取自然背景图
- 随机挑选字体、大小、颜色
- 依据深度图或 3D 场景信息对文字进行透视、扭曲、光照匹配
- 多词实例平均每张图约 10 个单词
许可证 基于 Apache 2.0,仅限非商业研究与教育使用

获取方式

  1. 官方下载页面(包含图像压缩包和 gt.mat 标注文件)
  2. GitHub 代码仓库(实现合成引擎、数据生成脚本)
  3. 论文原文(了解技术细节与实验结果)

关键特性

  • 多样性:覆盖多种字体、颜色、扭曲程度以及复杂背景,能够模拟真实场景中的各种文本布局。
  • 自动化:数据生成过程高度自动化,适合大规模合成,便于快速扩展到不同语言或字符集。
  • 高质量标注:提供精确的词级与字符级边界框,支持检测、定位以及端到端识别任务。
  • 广泛使用:在许多主流文本检测/识别框架(如 CRAFT、MMOCR、doctr 等)中作为标准预训练数据集使用。

使用建议

  • 预训练:在实际场景数据不足时,可先使用 SynthText 进行模型预训练,再在真实数据上微调,以提升检测/识别的鲁棒性
  • 数据划分:由于数据全为合成,建议在训练集使用全部 80 万张,在验证/测试阶段使用官方提供的少量真实数据或其他公开基准(ICDARTotal‑Text 等)进行评估。
  • 扩展:若需要中文或其他语言的合成数据,可在 SynthText 引擎基础上替换词库或字体,实现自定义合成。

总结:SynthText 是目前最具规模和影响力的自然场景合成文本数据集之一,凭借其大规模、丰富标注和高质量合成方式,已成为文本检测与识别研究的基石资源。通过官方下载链接或 GitHub 仓库即可获取全部数据与生成代码,适用于学术研究与非商业项目。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!