1. 什么是 ADE20K
ADE20K(“Scene Parsing through ADE20K Dataset”)是由美国麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)视觉组发布的大规模场景解析数据集,旨在推动语义分割、场景解析和实例分割等视觉任务的研究。数据集的核心特点是对每张图像进行像素级、全覆盖的标注,包括对象(things)、背景(stuff)以及对象的部件(parts),并提供实例 ID、遮挡信息等属性。
2. 数据规模与划分
- 总图像数:约 25 000 张。
- 训练集:20 210 张。
- 验证集:2 000 张。
- 测试集:约 3 000 张(官方后续会陆续发布)。
这些图像来源于 SUN、Places 等公开数据集,覆盖室内、室外、自然与城市等多种场景。
3. 类别与标注细节
- 类别数量:150 个语义类别(35 个 “stuff” 类,如 wall、sky、road;115 个 “thing” 类,如 car、person、table)。
- 标注密度:每张图像的像素约 92.75% 被标注,其中 “stuff” 占 60.92%, “thing” 占 31.83%。
- 层次结构:除了对象本身,还标注了对象的部件(如汽车的门、门上的窗),形成了对象‑部件‑子部件的层级树,便于细粒度理解。
- 文件组织:每张图像配有 RGB 原图、对象分割掩码、部件分割掩码以及文本描述文件,掩码中使用 RGB 通道编码类别与实例 ID。
4. 官方资源与下载
- 官方网站:
- 下载链接:ADEChallengeData2016.zip(在官网提供注册后下载)。
- 代码实现:官方提供的 PyTorch、Caffe、Torch7 等实现仓库(GitHub https://github.com/CSAILVision/sceneparsing )可直接加载数据并进行训练。
5. 研究与应用价值
- 基准任务:ADE20K 被用于 SceneParse150 基准,评估语义分割、场景解析、实例分割等模型的性能。
- 广泛使用:几乎所有主流的分割网络(PSPNet、UPerNet、HRNet、SegFormer、ViT‑Adapter 等)都在该数据集上进行训练与评测,最新的模型在验证集上已突破 60% mIoU。
- 衍生应用:训练好的模型可用于图像内容移除、场景合成、机器人导航等实际场景。
6. 引用方式
如果在论文或项目中使用 ADE20K,请参考以下两篇核心论文:
- B. Zhou 等, “Scene Parsing through ADE20K Dataset”, CVPR 2017.
- B. Zhou 等, “Semantic Understanding of Scenes through ADE20K Dataset”, International Journal of Computer Vision (IJCV).
7. 小结
ADE20K 以其 大规模、全覆盖、层次化 的标注体系,成为计算机视觉领域最重要的场景解析基准之一。研究者可以通过官方网页获取完整数据和预训练模型,快速开展语义分割、场景理解等前沿工作。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!