什么是NYU Depth V2 数据集

AI解读 7小时前 硕雀
3 0

NYU Depth V2 数据集概览


1. 数据集来源与采集方式

  • 由纽约大学(NYU)视觉与机器人实验室组织,使用 Microsoft KinectRGB + Depth)相机在多个城市的室内环境中拍摄视频序列。
  • 捕获的原始数据包括同步的 RGB 图像、深度图、加速度计信息,采样率约 20‑30 fps。

2. 规模与组成

项目 数量 说明
标注(密集)RGB‑Depth 对 1449 对 对齐的 RGB 与深度图像,已填补缺失深度值
场景数量 464 个 来自 3 个城市的不同室内场景
未标记帧 ≈ 407 024 帧 供自监督或预训练使用
训练 / 测试划分 795 / 654 张 官方标准划分,常用于深度估计与语义分割
图像分辨率 640 × 480(原始)
下采样至 320 × 240 或 288 × 384 进行实验
类别数 40 类像素级语义标签
实例标注 每个对象都有 类 + 实例 ID,支持实例分割

3. 标注信息

  • 语义标签:40 类室内对象(如墙壁、地板、家具、植物等),并提供 10 个细粒子子类。
  • 实例 ID:同类不同实例可区分,适合实例分割与对象检测任务。
  • 深度编码:除原始深度外,还提供 HHA(水平、垂直、深度)编码,便于学习深度特征。

4. 主要研究任务与应用

任务 典型使用方式
单目深度估计 训练深度回归网络,评估 RMSE、δ1 等指标
RGB‑D 语义分割 像素级分类,使用 40 类标签进行评估(fwavacc、avacc 等)
实例分割 / 目标检测 利用实例 ID 进行多目标检测与分割
场景理解 / 机器人导航 结合深度与语义信息,支持室内机器人路径规划与交互推理
跨模态学习 与合成或其他 RGB‑D 数据集(如 SUN‑RGBD)联合训练,提高模型泛化

5. 下载与使用资源

  • 官方主页提供 MATLAB 与 Python 工具箱,数据以 .mat.png.npy 等格式发布,下载地址为 https://cs.nyu.edu/\~silberman/datasets/nyu_depth_v2.html (页面在多篇文献中被引用)。
  • 社区维护的 Python 支持库(nyuv2‑python‑toolbox)提供数据读取、预处理、数据增强等高层 API,便于快速上手。

6. 常用评估指标

  • 深度估计:RMSE、MAE、δ1、δ2、δ3 等。
  • 语义分割:像素准确率(pixAcc)、平均交并比(mIoU)、频加权交并比(fwIoU)等。
  • 这些指标在多篇基准报告中被统一使用,便于不同方法的公平比较。

7. 数据集的优势与局限

  • 优势
    • 高质量、对齐的 RGB‑Depth 对,配套丰富的语义与实例标注。
    • 场景多样(464 场、3 城市),覆盖常见室内布局。
    • 提供大量未标记帧,支持自监督学习
  • 局限
    • 相比更大规模的室内数据集(如 ScanNet),标注图像数量(1449)仍较少,限制了超大模型的直接训练。
    • 深度图存在噪声与缺失,需要预处理或使用 HHA 编码来缓解。

小结
NYU Depth V2 是室内 RGB‑D 研究的经典基准,提供了 1449 对高质量对齐的 RGB 与深度图像、40 类像素级语义标签以及实例标注,配套未标记帧可用于自监督预训练。它广泛用于单目深度估计、语义/实例分割、场景理解等任务,并通过统一的评估协议推动了深度学习在室内视觉领域的快速发展。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!