什么是SVHN(Street View House Numbers)数据集

AI解读 8小时前 硕雀
2 0

SVHN(Street View House Numbers数据集概览

内容 说明 参考
数据来源 采自 Google Street View 的街道门牌号图像,使用自动检测器和 AMT 标注得到。
数据规模 - 训练集:73 257 张 32×32 彩色图像
- 测试集:26 032 张
- 额外(extra)集:531 131 张(可用于辅助训练)
总计约 630 000 张标注数字。
类别 10 类数字 0‑9(其中 0 的标签在部分实现中记为 10)。
两种常用格式 1. Format 1:原始街景图像,提供每个数字的边界框信息。
2. Format 2(裁剪版):每个数字裁剪为 32×32 像素的 MNIST‑style 图像,便于直接分类。
主要任务 - 单字符数字分类(中心数字为目标)
- 多字符检测与识别(利用边界框)
- 无监督特征学习基准
- 深度学习模型(CNNResNet、CapsNet 等)性能评估
官方入口 <http://ufldl.stanford.edu/housenumbers/ >(提供原始下载、说明文档、格式说明)。
原始论文 Netzer Y., Wang T., Coates A., Bissacco A., Wu B., Ng A.Y. Reading Digits in Natural Images with Unsupervised Feature Learning, NIPS Workshop 2011.
常用镜像/社区资源 - Papers with Code 数据集页面(含基准排行榜、代码实现):
- Kaggle 镜像(CSV/NumPy 版、YOLO 标注版等):
典型基准成绩 采用深度残差网络、混合池化等高级结构可达到约 98 % 的分类准确率(错误率约 1.7 %)。
使用注意事项 - 数据已是 32×32 RGB,通常需要做 featurewise zero‑center 与 standardization(如 tflearn、PyTorch 示例所示)。
- 额外集(extra)不含中心数字标签,适合半监督或数据增强

为什么 SVHN 常被选作基准?

  1. 真实场景:与手写 MNIST 相比,SVHN 来自自然街景,背景复杂、光照变化大,挑战更贴近实际应用。
  2. 规模大:超过 60 万张标注图像,足以训练深层网络而不易出现过拟合
  3. 多任务:既提供 分类(Format 2)也提供 检测(Format 1)两种任务,适合研究端到端的目标检测与识别流水线。
  4. 社区成熟:已有大量公开实现(TensorFlow、PyTorchKerasCaffe 等),并在 Papers with Code 上维护排行榜,便于对比新模型。

快速入门示例(Python / PyTorch)

import torch, torchvision
from torchvision import transforms, datasets

# 数据预处理:中心化 + 标准化
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.4377, 0.4438, 0.4728],
                         std=[0.1980, 0.2010, 0.1970])
])

train = datasets.SVHN(root='data/', split='train',
                      download=True, transform=transform)
test  = datasets.SVHN(root='data/', split='test',
                      download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train, batch_size=128, shuffle=True)
test_loader  = torch.utils.data.DataLoader(test,  batch_size=128, shuffle=False)

(上述代码参考了社区示例,可直接运行获取训练/测试数据。)


小结:SVHN 是一个来源于 Google Street View 的大规模彩色数字图像数据集,提供两种使用格式,适用于数字分类、目标检测以及无监督特征学习等多种视觉任务。官方站点、原始论文、以及社区镜像(Papers with Code、Kaggle)均可免费获取,已成为深度学习视觉基准的常用选项。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!