SynthText(全称 Synthetic Text in the Wild)是由牛津大学视觉几何组(Visual Geometry Group)在 2016 年 CVPR 论文《Synthetic Data for Text Localisation in Natural Images》中提出的合成文本数据集。它通过将人工渲染的文字叠加到真实自然场景图像上,模拟真实世界中的文本出现方式,重点考虑局部 3D 场景几何、光照、颜色、扭曲等因素,使生成的图像在视觉上与真实场景高度相似。
| 项目 | 内容 |
|---|---|
| 规模 | 约 80 万张 合成图像,包含 约 800 万 合成单词实例 |
| 标注 | 每张图像提供 词级、字符级 边界框以及对应的文字转录;标注文件通常为 gt.mat(MAT‑LAB 格式) |
| 用途 | 主要用于 自然场景文本检测 与 文本识别 的预训练与评估;在 ICDAR、IC13、IC15 等基准上表现突出 |
| 生成方式 | - 随机选取自然背景图 - 随机挑选字体、大小、颜色 - 依据深度图或 3D 场景信息对文字进行透视、扭曲、光照匹配 - 多词实例平均每张图约 10 个单词 |
| 许可证 | 基于 Apache 2.0,仅限非商业研究与教育使用 |
获取方式
关键特性
- 多样性:覆盖多种字体、颜色、扭曲程度以及复杂背景,能够模拟真实场景中的各种文本布局。
- 自动化:数据生成过程高度自动化,适合大规模合成,便于快速扩展到不同语言或字符集。
- 高质量标注:提供精确的词级与字符级边界框,支持检测、定位以及端到端识别任务。
- 广泛使用:在许多主流文本检测/识别框架(如 CRAFT、MMOCR、doctr 等)中作为标准预训练数据集使用。
使用建议
- 预训练:在实际场景数据不足时,可先使用 SynthText 进行模型预训练,再在真实数据上微调,以提升检测/识别的鲁棒性。
- 数据划分:由于数据全为合成,建议在训练集使用全部 80 万张,在验证/测试阶段使用官方提供的少量真实数据或其他公开基准(ICDAR、Total‑Text 等)进行评估。
- 扩展:若需要中文或其他语言的合成数据,可在 SynthText 引擎基础上替换词库或字体,实现自定义合成。
总结:SynthText 是目前最具规模和影响力的自然场景合成文本数据集之一,凭借其大规模、丰富标注和高质量合成方式,已成为文本检测与识别研究的基石资源。通过官方下载链接或 GitHub 仓库即可获取全部数据与生成代码,适用于学术研究与非商业项目。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!