什么是NYU‑Depth V2数据集

AI解读 20小时前 硕雀
3 0

NYU‑Depth V2 数据集概览

项目 内容 说明
发布机构 纽约大学(NYU)计算机视觉实验室 由 Nathan Silberman、Pushmeet Kohli、Derek Hoiem、Rob Fergus 等人组织,首次公开于 2012 年
采集设备 Microsoft KinectRGB + Depth)摄像头 同时记录彩色图像和深度图,深度分辨率 640 × 480 像素
数据规模 标注对:1449 对对齐的 RGB‑Depth 图像
场景数量:464 个新场景,分布在 3 座城市
未标注帧:约 407 024 帧
标注信息 每个像素都有类别标签(40+ 类)并附带实例编号,支持语义分割实例分割和支撑平面推断
数据划分(常用) 官方推荐的训练/测试划分:
‑ 249 场景(≈ 20 k 张)用于训练
‑ 215 场景(≈ 6 k 张)用于测试
数据组织 Labeled:预处理后的深度图、密集语义标签
Raw:原始 RGB、深度、加速度计数据(需自行同步)
ToolboxMATLAB 实现的处理工具箱,亦有 Python 移植版
主要用途 - 室内语义分割、实例分割
- 支撑平面推断、3D 重建
- 单目/双目深度估计基准(如 NYU‑Depth V2‑test)
下载渠道 官方页面(MATLAB Toolbox)
https://cs.nyu.edu/-fergus/datasets/nyu_depth_v2.html
镜像/第三方平台(如 hyper.ai、天池)也提供压缩包下载
常用引用 Silberman et al., “Indoor Segmentation and Support Inference from RGB‑D Images”, ECCV 2012

1. 背景与意义

NYU‑Depth V2 是在室内视觉研究中最早、最广泛使用的 RGB‑D 数据集之一。它通过 Kinect 同时捕获彩色图像和深度图,提供了真实世界的深度测量,弥补了仅靠合成数据或单目图像的不足。由于标注细致、场景多样,成为语义分割、深度估计、3D 场景理解等任务的标准基准。

2. 数据结构细节

  • 文件格式:官方提供的 .mat(MATLAB)文件,内部包含 imagesdepthslabelsinstances 等变量。
  • 深度图:原始深度值以米为单位,存在因遮挡或反射导致的缺失值,官方 Toolbox 已提供填补函数。
  • 语义标签:共 40 类(如 wallfloorchair 等),每类对应整数 ID;实例标签进一步区分同类不同物体。

3. 使用流程(常见步骤)

  1. 下载:从官方页面或镜像站点获取压缩包。
  2. 解压并加载(Python 示例)
    import h5py, numpy as np
    f = h5py.File('nyu_depth_v2_labeled.mat', 'r')
    rgb = np.array(f['images'])      # shape: (1449, 3, 480, 640)
    depth = np.array(f['depths'])    # shape: (1449, 480, 640)
    label = np.array(f['labels'])    # shape: (1449, 480, 640)
    

    (参考代码可在 GitHub Python Toolbox 中找到)

  3. 预处理:对深度进行归一化、对缺失值进行插值;对 RGB 进行颜色标准化
  4. 划分:使用官方提供的 train_test_split.mat(或自行按场景划分)确保训练/测试一致性。
  5. 模型训练:常见的网络结构包括 ResNet‑based 编码器 + 上采样解码器Transformer‑based 深度估计模型等。

4. 常见研究成果

  • 语义分割:Silberman 等首次提出的基准在该数据集上实现了 71% 的像素准确率
  • 单目深度估计:NYU‑Depth V2 被用于评估多种深度预测网络(如 VGG‑Depth、PixelFormer、VPD),并提供了 RMSE、REL、δ1‑δ3 等统一指标。
  • 数据增强:近年来出现的虚拟增强版本(ANYU)在保持原始分辨率的同时加入合成 3D 物体,显著提升跨数据集泛化能力。

5. 获取链接

使用提示:在科研论文或项目报告中,请务必引用原始论文(Silberman et al., ECCV 2012)以及官方数据集页面,以遵守数据使用协议。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!