什么是TinyImages数据集

TinyImages数据集概览

内容 说明 参考
创建者与发布时间 由麻省理工学院(MIT)计算机视觉实验室的 Antonio Torralba 等人在 2008 年发布。
规模 大约 8000 万(80 million)‍ 张 32 × 32 像素的彩色图像。
官方统计为 79,302,017 张图像,约 7.9 千万张。
标签来源 采用 WordNet 中约 53,464(或 5 万)个名词作为查询词,自动从搜索引擎抓取图片并附上对应的文字标签。
数据组织 以二进制文件形式发布,主要包括:
• Image binary(约 227 GB)
Metadata binary(约 57 GB)
• Gist binary(约 114 GB)
• Index data(约 7 MB)
• Matlab toolbox(约 150 KB)
与其他数据集的关系 CIFAR‑10 / CIFAR‑100:这两个常用基准均从 TinyImages 中抽取子集(分别为 60 000 张和 60 000 张),因此 TinyImages 是它们的上层来源。
Tiny ImageNet:并非 TinyImages 的子集,而是从 ImageNet 采样、下采样至 64 × 64 的 200 类小型数据集,常被误认为是 TinyImages 的变体。
主要用途 - 大规模无监督或半监督学习预训练数据
- 研究数据偏差(dataset bias)和去偏方法
- 作为 OOD(out‑of‑distribution)负样本来源
- 评估图像检索、最近邻等算法的可扩展性
争议与下架 2020 年底,MIT 公开承认 TinyImages 包含大量带有种族、性别等歧视性标签(如对黑人、亚洲人、女性的贬义词),且因图片分辨率极低难以人工审查。为防止有害内容传播,MIT 将该数据集永久下线,并呼吁社区删除已下载的副本。
获取方式(已下线) 原始下载页面已被关闭,地址为 <https://groups.csail.mit.edu/vision/TinyImages/ >(可在互联网存档或第三方镜像中找到历史文件)。
后续替代 由于版权与伦理问题,研究者倾向使用 ImageNet、CIFAR‑10/100、Tiny ImageNet 或 OpenImages 等公开、已审查的数据集。

小结

TinyImages 是 2008 年推出的超大规模 32 × 32 像素图像集合,最初旨在为计算机视觉提供丰富的无标签数据,推动算法在大规模数据上的学习与评估。它的规模和自动采集方式在当时具有开创性,但也导致了大量未过滤的偏见标签。2020 年 MIT 因伦理争议将其永久下线,随后社区转向更安全、已审查的公开数据集。若需要类似规模的低分辨率图像,可考虑 Tiny ImageNet(64 × 64,200 类)或 OpenImages(高分辨率、标注完整)等替代方案。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!