SVHN(Street View House Numbers)数据集概览
| 内容 | 说明 | 参考 |
|---|---|---|
| 数据来源 | 采自 Google Street View 的街道门牌号图像,使用自动检测器和 AMT 标注得到。 | |
| 数据规模 | - 训练集:73 257 张 32×32 彩色图像 - 测试集:26 032 张 - 额外(extra)集:531 131 张(可用于辅助训练) 总计约 630 000 张标注数字。 |
|
| 类别 | 10 类数字 0‑9(其中 0 的标签在部分实现中记为 10)。 | |
| 两种常用格式 | 1. Format 1:原始街景图像,提供每个数字的边界框信息。 2. Format 2(裁剪版):每个数字裁剪为 32×32 像素的 MNIST‑style 图像,便于直接分类。 |
|
| 主要任务 | - 单字符数字分类(中心数字为目标) - 多字符检测与识别(利用边界框) - 无监督特征学习基准 - 深度学习模型(CNN、ResNet、CapsNet 等)性能评估 |
|
| 官方入口 | <http://ufldl.stanford.edu/housenumbers/ >(提供原始下载、说明文档、格式说明)。 | |
| 原始论文 | Netzer Y., Wang T., Coates A., Bissacco A., Wu B., Ng A.Y. Reading Digits in Natural Images with Unsupervised Feature Learning, NIPS Workshop 2011. | |
| 常用镜像/社区资源 | - Papers with Code 数据集页面(含基准排行榜、代码实现): - Kaggle 镜像(CSV/NumPy 版、YOLO 标注版等): |
|
| 典型基准成绩 | 采用深度残差网络、混合池化等高级结构可达到约 98 % 的分类准确率(错误率约 1.7 %)。 | |
| 使用注意事项 | - 数据已是 32×32 RGB,通常需要做 featurewise zero‑center 与 standardization(如 tflearn、PyTorch 示例所示)。 - 额外集(extra)不含中心数字标签,适合半监督或数据增强。 |
为什么 SVHN 常被选作基准?
- 真实场景:与手写 MNIST 相比,SVHN 来自自然街景,背景复杂、光照变化大,挑战更贴近实际应用。
- 规模大:超过 60 万张标注图像,足以训练深层网络而不易出现过拟合。
- 多任务:既提供 分类(Format 2)也提供 检测(Format 1)两种任务,适合研究端到端的目标检测与识别流水线。
- 社区成熟:已有大量公开实现(TensorFlow、PyTorch、Keras、Caffe 等),并在 Papers with Code 上维护排行榜,便于对比新模型。
快速入门示例(Python / PyTorch)
import torch, torchvision
from torchvision import transforms, datasets
# 数据预处理:中心化 + 标准化
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize(mean=[0.4377, 0.4438, 0.4728],
std=[0.1980, 0.2010, 0.1970])
])
train = datasets.SVHN(root='data/', split='train',
download=True, transform=transform)
test = datasets.SVHN(root='data/', split='test',
download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train, batch_size=128, shuffle=True)
test_loader = torch.utils.data.DataLoader(test, batch_size=128, shuffle=False)
(上述代码参考了社区示例,可直接运行获取训练/测试数据。)
小结:SVHN 是一个来源于 Google Street View 的大规模彩色数字图像数据集,提供两种使用格式,适用于数字分类、目标检测以及无监督特征学习等多种视觉任务。官方站点、原始论文、以及社区镜像(Papers with Code、Kaggle)均可免费获取,已成为深度学习视觉基准的常用选项。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!