什么是SVHN（Street View House Numbers）数据集

AI解读 3个月前硕雀

68 0 0

SVHN（Street View House Numbers）数据集概览

内容	说明	参考
数据来源	采自 Google Street View 的街道门牌号图像，使用自动检测器和 AMT 标注得到。
数据规模	- 训练集：73 257 张 32×32 彩色图像 - 测试集：26 032 张 - 额外（extra）集：531 131 张（可用于辅助训练）总计约 630 000 张标注数字。
类别	10 类数字 0‑9（其中 0 的标签在部分实现中记为 10）。
两种常用格式	1. Format 1：原始街景图像，提供每个数字的边界框信息。 2. Format 2（裁剪版）：每个数字裁剪为 32×32 像素的 MNIST‑style 图像，便于直接分类。
主要任务	- 单字符数字分类（中心数字为目标） - 多字符检测与识别（利用边界框） - 无监督特征学习基准 - 深度学习模型（CNN、ResNet、CapsNet 等）性能评估
官方入口	<http://ufldl.stanford.edu/housenumbers/ >（提供原始下载、说明文档、格式说明）。
原始论文	Netzer Y., Wang T., Coates A., Bissacco A., Wu B., Ng A.Y. Reading Digits in Natural Images with Unsupervised Feature Learning, NIPS Workshop 2011.
常用镜像/社区资源	- Papers with Code 数据集页面（含基准排行榜、代码实现）： - Kaggle 镜像（CSV/NumPy 版、YOLO 标注版等）：
典型基准成绩	采用深度残差网络、混合池化等高级结构可达到约 98 % 的分类准确率（错误率约 1.7 %）。
使用注意事项	- 数据已是 32×32 RGB，通常需要做 featurewise zero‑center 与 standardization（如 tflearn、PyTorch 示例所示）。 - 额外集（extra）不含中心数字标签，适合半监督或数据增强。

为什么 SVHN 常被选作基准？

真实场景：与手写 MNIST 相比，SVHN 来自自然街景，背景复杂、光照变化大，挑战更贴近实际应用。
规模大：超过 60 万张标注图像，足以训练深层网络而不易出现过拟合。
多任务：既提供分类（Format 2）也提供检测（Format 1）两种任务，适合研究端到端的目标检测与识别流水线。
社区成熟：已有大量公开实现（TensorFlow、PyTorch、Keras、Caffe 等），并在 Papers with Code 上维护排行榜，便于对比新模型。

快速入门示例（Python / PyTorch）

import torch, torchvision
from torchvision import transforms, datasets

# 数据预处理：中心化 + 标准化
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.4377, 0.4438, 0.4728],
                         std=[0.1980, 0.2010, 0.1970])
])

train = datasets.SVHN(root='data/', split='train',
                      download=True, transform=transform)
test  = datasets.SVHN(root='data/', split='test',
                      download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train, batch_size=128, shuffle=True)
test_loader  = torch.utils.data.DataLoader(test,  batch_size=128, shuffle=False)

（上述代码参考了社区示例，可直接运行获取训练/测试数据。）

小结：SVHN 是一个来源于 Google Street View 的大规模彩色数字图像数据集，提供两种使用格式，适用于数字分类、目标检测以及无监督特征学习等多种视觉任务。官方站点、原始论文、以及社区镜像（Papers with Code、Kaggle）均可免费获取，已成为深度学习视觉基准的常用选项。

Street View House Numbers SVHN数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是SVHN（Street View House Numbers）数据集

为什么 SVHN 常被选作基准？

快速入门示例（Python / PyTorch）

什么是Trivial Augment

什么是CIFAR‑10 / CIFAR‑100 数据集