内容 | 说明 | 参考 |
---|---|---|
创建者与发布时间 | 由麻省理工学院(MIT)计算机视觉实验室的 Antonio Torralba 等人在 2008 年发布。 | |
规模 | 大约 8000 万(80 million) 张 32 × 32 像素的彩色图像。 官方统计为 79,302,017 张图像,约 7.9 千万张。 |
|
标签来源 | 采用 WordNet 中约 53,464(或 5 万)个名词作为查询词,自动从搜索引擎抓取图片并附上对应的文字标签。 | |
数据组织 | 以二进制文件形式发布,主要包括: • Image binary(约 227 GB) • Metadata binary(约 57 GB) • Gist binary(约 114 GB) • Index data(约 7 MB) • Matlab toolbox(约 150 KB) |
|
与其他数据集的关系 | - CIFAR‑10 / CIFAR‑100:这两个常用基准均从 TinyImages 中抽取子集(分别为 60 000 张和 60 000 张),因此 TinyImages 是它们的上层来源。 - Tiny ImageNet:并非 TinyImages 的子集,而是从 ImageNet 采样、下采样至 64 × 64 的 200 类小型数据集,常被误认为是 TinyImages 的变体。 |
|
主要用途 | - 大规模无监督或半监督学习的预训练数据 - 研究数据偏差(dataset bias)和去偏方法 - 作为 OOD(out‑of‑distribution)负样本来源 - 评估图像检索、最近邻等算法的可扩展性 |
|
争议与下架 | 2020 年底,MIT 公开承认 TinyImages 包含大量带有种族、性别等歧视性标签(如对黑人、亚洲人、女性的贬义词),且因图片分辨率极低难以人工审查。为防止有害内容传播,MIT 将该数据集永久下线,并呼吁社区删除已下载的副本。 | |
获取方式(已下线) | 原始下载页面已被关闭,地址为 <https://groups.csail.mit.edu/vision/TinyImages/ >(可在互联网存档或第三方镜像中找到历史文件)。 | |
后续替代 | 由于版权与伦理问题,研究者倾向使用 ImageNet、CIFAR‑10/100、Tiny ImageNet 或 OpenImages 等公开、已审查的数据集。 |
小结
TinyImages 是 2008 年推出的超大规模 32 × 32 像素图像集合,最初旨在为计算机视觉提供丰富的无标签数据,推动算法在大规模数据上的学习与评估。它的规模和自动采集方式在当时具有开创性,但也导致了大量未过滤的偏见标签。2020 年 MIT 因伦理争议将其永久下线,随后社区转向更安全、已审查的公开数据集。若需要类似规模的低分辨率图像,可考虑 Tiny ImageNet(64 × 64,200 类)或 OpenImages(高分辨率、标注完整)等替代方案。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!