什么是ADE20K数据集

AI解读 3个月前硕雀

104 0 0

1. 什么是 ADE20K
ADE20K（“Scene Parsing through ADE20K Dataset”）是由美国麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）视觉组发布的大规模场景解析数据集，旨在推动语义分割、场景解析和实例分割等视觉任务的研究。数据集的核心特点是对每张图像进行像素级、全覆盖的标注，包括对象（things）、背景（stuff）以及对象的部件（parts），并提供实例 ID、遮挡信息等属性。

2. 数据规模与划分

总图像数：约 25 000 张。
训练集：20 210 张。
验证集：2 000 张。
测试集：约 3 000 张（官方后续会陆续发布）。
这些图像来源于 SUN、Places 等公开数据集，覆盖室内、室外、自然与城市等多种场景。

3. 类别与标注细节

类别数量：150 个语义类别（35 个 “stuff” 类，如 wall、sky、road；115 个 “thing” 类，如 car、person、table）。
标注密度：每张图像的像素约 92.75% 被标注，其中 “stuff” 占 60.92%， “thing” 占 31.83%。
层次结构：除了对象本身，还标注了对象的部件（如汽车的门、门上的窗），形成了对象‑部件‑子部件的层级树，便于细粒度理解。
文件组织：每张图像配有 RGB 原图、对象分割掩码、部件分割掩码以及文本描述文件，掩码中使用 RGB 通道编码类别与实例 ID。

4. 官方资源与下载

官方网站：
- http://sceneparsing.csail.mit.edu/
- https://groups.csail.mit.edu/vision/datasets/ADE20K/
下载链接：ADEChallengeData2016.zip（在官网提供注册后下载）。
代码实现：官方提供的 PyTorch、Caffe、Torch7 等实现仓库（GitHub https://github.com/CSAILVision/sceneparsing ）可直接加载数据并进行训练。

5. 研究与应用价值

基准任务：ADE20K 被用于 SceneParse150 基准，评估语义分割、场景解析、实例分割等模型的性能。
广泛使用：几乎所有主流的分割网络（PSPNet、UPerNet、HRNet、SegFormer、ViT‑Adapter 等）都在该数据集上进行训练与评测，最新的模型在验证集上已突破 60% mIoU。
衍生应用：训练好的模型可用于图像内容移除、场景合成、机器人导航等实际场景。

6. 引用方式
如果在论文或项目中使用 ADE20K，请参考以下两篇核心论文：

B. Zhou 等, “Scene Parsing through ADE20K Dataset”, CVPR 2017.
B. Zhou 等, “Semantic Understanding of Scenes through ADE20K Dataset”, International Journal of Computer Vision (IJCV).

7. 小结
ADE20K 以其 大规模、全覆盖、层次化 的标注体系，成为计算机视觉领域最重要的场景解析基准之一。研究者可以通过官方网页获取完整数据和预训练模型，快速开展语义分割、场景理解等前沿工作。

ADE20K ADE20K数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是ADE20K数据集

什么是PASCAL VOC 2012 数据集

什么是嵌入式推理

什么是ADE20K数据集

什么是PASCAL VOC 2012 数据集

什么是嵌入式推理

什么是PASCAL VOC 2012 数据集