什么是TinyImages数据集

AI解读 5个月前硕雀

66 0 0

内容	说明	参考
创建者与发布时间	由麻省理工学院（MIT）计算机视觉实验室的 Antonio Torralba 等人在 2008 年发布。
规模	大约 8000 万（80 million）‍ 张 32 × 32 像素的彩色图像。官方统计为 79,302,017 张图像，约 7.9 千万张。
标签来源	采用 WordNet 中约 53,464（或 5 万）个名词作为查询词，自动从搜索引擎抓取图片并附上对应的文字标签。
数据组织	以二进制文件形式发布，主要包括： • Image binary（约 227 GB） • Metadata binary（约 57 GB） • Gist binary（约 114 GB） • Index data（约 7 MB） • Matlab toolbox（约 150 KB）
与其他数据集的关系	- CIFAR‑10 / CIFAR‑100：这两个常用基准均从 TinyImages 中抽取子集（分别为 60 000 张和 60 000 张），因此 TinyImages 是它们的上层来源。 - Tiny ImageNet：并非 TinyImages 的子集，而是从 ImageNet 采样、下采样至 64 × 64 的 200 类小型数据集，常被误认为是 TinyImages 的变体。
主要用途	- 大规模无监督或半监督学习的预训练数据 - 研究数据偏差（dataset bias）和去偏方法 - 作为 OOD（out‑of‑distribution）负样本来源 - 评估图像检索、最近邻等算法的可扩展性
争议与下架	2020 年底，MIT 公开承认 TinyImages 包含大量带有种族、性别等歧视性标签（如对黑人、亚洲人、女性的贬义词），且因图片分辨率极低难以人工审查。为防止有害内容传播，MIT 将该数据集永久下线，并呼吁社区删除已下载的副本。
获取方式（已下线）‍	原始下载页面已被关闭，地址为 <https://groups.csail.mit.edu/vision/TinyImages/ >（可在互联网存档或第三方镜像中找到历史文件）。
后续替代	由于版权与伦理问题，研究者倾向使用 ImageNet、CIFAR‑10/100、Tiny ImageNet 或 OpenImages 等公开、已审查的数据集。

小结

TinyImages 是 2008 年推出的超大规模 32 × 32 像素图像集合，最初旨在为计算机视觉提供丰富的无标签数据，推动算法在大规模数据上的学习与评估。它的规模和自动采集方式在当时具有开创性，但也导致了大量未过滤的偏见标签。2020 年 MIT 因伦理争议将其永久下线，随后社区转向更安全、已审查的公开数据集。若需要类似规模的低分辨率图像，可考虑 Tiny ImageNet（64 × 64，200 类）或 OpenImages（高分辨率、标注完整）等替代方案。

TinyImages TinyImages数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是TinyImages数据集

小结

什么是CIFAR‑10数据集

什么是CIFAR‑100数据集