什么是ADE20K数据集

AI解读 3小时前 硕雀
2 0

ADE20K 数据集概览

1. 什么是 ADE20K
ADE20K(“Scene Parsing through ADE20K Dataset”)是由美国麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)视觉组发布的大规模场景解析数据集,旨在推动语义分割、场景解析和实例分割等视觉任务的研究。数据集的核心特点是对每张图像进行像素级、全覆盖的标注,包括对象(things)、背景(stuff)以及对象的部件(parts),并提供实例 ID、遮挡信息等属性。

2. 数据规模与划分

  • 总图像数:约 25 000 张。
  • 训练集:20 210 张。
  • 验证集:2 000 张。
  • 测试集:约 3 000 张(官方后续会陆续发布)。
    这些图像来源于 SUN、Places 等公开数据集,覆盖室内、室外、自然与城市等多种场景。

3. 类别与标注细节

  • 类别数量:150 个语义类别(35 个 “stuff” 类,如 wall、sky、road;115 个 “thing” 类,如 car、person、table)。
  • 标注密度:每张图像的像素约 92.75% 被标注,其中 “stuff” 占 60.92%, “thing” 占 31.83%。
  • 层次结构:除了对象本身,还标注了对象的部件(如汽车的门、门上的窗),形成了对象‑部件‑子部件的层级树,便于细粒度理解。
  • 文件组织:每张图像配有 RGB 原图、对象分割掩码、部件分割掩码以及文本描述文件,掩码中使用 RGB 通道编码类别与实例 ID。

4. 官方资源与下载

5. 研究与应用价值

  • 基准任务:ADE20K 被用于 SceneParse150 基准,评估语义分割、场景解析、实例分割等模型的性能。
  • 广泛使用:几乎所有主流的分割网络(PSPNet、UPerNet、HRNet、SegFormer、ViT‑Adapter 等)都在该数据集上进行训练与评测,最新的模型在验证集上已突破 60% mIoU
  • 衍生应用:训练好的模型可用于图像内容移除、场景合成、机器人导航等实际场景。

6. 引用方式
如果在论文或项目中使用 ADE20K,请参考以下两篇核心论文:

  • B. Zhou 等, “Scene Parsing through ADE20K Dataset”, CVPR 2017.
  • B. Zhou 等, “Semantic Understanding of Scenes through ADE20K Dataset”, International Journal of Computer Vision (IJCV).

7. 小结
ADE20K 以其 大规模、全覆盖、层次化 的标注体系,成为计算机视觉领域最重要的场景解析基准之一。研究者可以通过官方网页获取完整数据和预训练模型,快速开展语义分割、场景理解等前沿工作。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!