Open Images 数据集概览
内容 | 说明 |
---|---|
创建者 | Google AI(联合 CMU、Cornell) |
首次发布 | 2016 年,后续迭代至 V7(2022 年) |
规模 | 约 9 百万张图片,覆盖 600 + 对象类别,图像级标签超过 19 千类,边界框约 1 580 万,分割、视觉关系等标注更是数百万级 |
数据来源 | Flickr 上的公开图片,均采用 CC‑BY 许可证,可自由用于科研和商业 |
标注类型 | - 图像级标签(多标签分类) ‑ 边界框(对象定位) ‑ 实例分割(像素级掩码) ‑ 视觉关系(如 “person‑holds‑umbrella”) ‑ 本地化描述(图像文字描述) ‑ 点级标签(关键点) |
主要版本 | - V2:约 9 011 219 张训练图,41 260 张验证,125 436 张测试,提供 600 类边界框 ‑ V4:加入 1 540 万边界框、30 万视觉关系,提升标注质量 ‑ V7:类别接近 2 万,标注更丰富,支持更广任务 |
常见应用 | - 大规模图像分类 ‑ 目标检测与实例分割 ‑ 视觉关系推理 ‑ 多模态学习(图像‑文本) ‑ 迁移学习与模型预训练 |
获取方式 | 官方 GitHub 项目页面提供下载脚本和数据说明: https://github.com/openimages/dataset 官方网页(包含数据概览、下载链接、基准挑战): https://storage.googleapis.com/openimages/web/index.html |
引用文献 | Krasin I. et al., “OpenImages: A public dataset for large‑scale multi‑label and multi‑class image classification”, arXiv:1611.05431 (2016) Kuznetsova A. et al., “The Open Images Dataset V4”, CVPR 2020 |
简要介绍
Open Images 是目前公开的最大、最丰富的图像标注数据集之一。它不仅提供了数百万张带有 图像级标签 的图片,还为 600 多个对象类别 提供了 边界框、实例分割、视觉关系、本地化描述 等多层次标注,使其能够支撑从 图像分类、目标检测 到 视觉关系推理、跨模态学习 等多种计算机视觉任务。
如何使用
- 下载:在 GitHub 项目页面(https://github.com/openimages/dataset )中使用提供的
download.sh
脚本或直接通过官方存储链接下载所需子集(训练/验证/测试)。 - 读取:数据以 CSV/TSV 形式提供标签文件,图片本身为 URL,可自行抓取或使用官方提供的已下载镜像。
- 训练:常见的基准模型(如 ResNet‑101、Inception‑ResNet‑v2)已在 Open Images 上预训练,可直接 fine‑tune。
- 评估:官方提供的评估脚本支持检测、分割、关系等任务的标准指标(mAP、AP@IoU 等)。
提示:使用时请遵守 CC‑BY 许可证的署名要求,并在论文或项目中引用上述文献。
这样,你就可以快速上手并利用 Open Images 进行各种视觉研究与应用开发。祝实验顺利!
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!