| 项目 | 内容 | 说明 |
|---|---|---|
| 发布机构 | 纽约大学(NYU)计算机视觉实验室 | 由 Nathan Silberman、Pushmeet Kohli、Derek Hoiem、Rob Fergus 等人组织,首次公开于 2012 年 |
| 采集设备 | Microsoft Kinect(RGB + Depth)摄像头 | 同时记录彩色图像和深度图,深度分辨率 640 × 480 像素 |
| 数据规模 | - 标注对:1449 对对齐的 RGB‑Depth 图像 - 场景数量:464 个新场景,分布在 3 座城市 - 未标注帧:约 407 024 帧 |
|
| 标注信息 | 每个像素都有类别标签(40+ 类)并附带实例编号,支持语义分割、实例分割和支撑平面推断 | |
| 数据划分(常用) | 官方推荐的训练/测试划分: ‑ 249 场景(≈ 20 k 张)用于训练 ‑ 215 场景(≈ 6 k 张)用于测试 |
|
| 数据组织 | - Labeled:预处理后的深度图、密集语义标签 - Raw:原始 RGB、深度、加速度计数据(需自行同步) - Toolbox:MATLAB 实现的处理工具箱,亦有 Python 移植版 |
|
| 主要用途 | - 室内语义分割、实例分割 - 支撑平面推断、3D 重建 - 单目/双目深度估计基准(如 NYU‑Depth V2‑test) |
|
| 下载渠道 | 官方页面(MATLAB Toolbox) https://cs.nyu.edu/-fergus/datasets/nyu_depth_v2.html 镜像/第三方平台(如 hyper.ai、天池)也提供压缩包下载 |
|
| 常用引用 | Silberman et al., “Indoor Segmentation and Support Inference from RGB‑D Images”, ECCV 2012 |
1. 背景与意义
NYU‑Depth V2 是在室内视觉研究中最早、最广泛使用的 RGB‑D 数据集之一。它通过 Kinect 同时捕获彩色图像和深度图,提供了真实世界的深度测量,弥补了仅靠合成数据或单目图像的不足。由于标注细致、场景多样,成为语义分割、深度估计、3D 场景理解等任务的标准基准。
2. 数据结构细节
- 文件格式:官方提供的
.mat(MATLAB)文件,内部包含images、depths、labels、instances等变量。 - 深度图:原始深度值以米为单位,存在因遮挡或反射导致的缺失值,官方 Toolbox 已提供填补函数。
- 语义标签:共 40 类(如
wall、floor、chair等),每类对应整数 ID;实例标签进一步区分同类不同物体。
3. 使用流程(常见步骤)
- 下载:从官方页面或镜像站点获取压缩包。
- 解压并加载(Python 示例)
import h5py, numpy as np f = h5py.File('nyu_depth_v2_labeled.mat', 'r') rgb = np.array(f['images']) # shape: (1449, 3, 480, 640) depth = np.array(f['depths']) # shape: (1449, 480, 640) label = np.array(f['labels']) # shape: (1449, 480, 640)(参考代码可在 GitHub Python Toolbox 中找到)
- 预处理:对深度进行归一化、对缺失值进行插值;对 RGB 进行颜色标准化。
- 划分:使用官方提供的
train_test_split.mat(或自行按场景划分)确保训练/测试一致性。 - 模型训练:常见的网络结构包括 ResNet‑based 编码器 + 上采样解码器、Transformer‑based 深度估计模型等。
4. 常见研究成果
- 语义分割:Silberman 等首次提出的基准在该数据集上实现了 71% 的像素准确率。
- 单目深度估计:NYU‑Depth V2 被用于评估多种深度预测网络(如 VGG‑Depth、PixelFormer、VPD),并提供了 RMSE、REL、δ1‑δ3 等统一指标。
- 数据增强:近年来出现的虚拟增强版本(ANYU)在保持原始分辨率的同时加入合成 3D 物体,显著提升跨数据集泛化能力。
5. 获取链接
- 官方主页(含下载链接 & MATLAB Toolbox): https://cs.nyu.edu/-fergus/datasets/nyu_depth_v2.html
- Python Toolbox(GitHub): https://github.com/GabrielMajeri/nyuv2-python-toolbox
- 第三方镜像(快速下载): https://hyper.ai/datasets/5376 (中文页面)、 https://tianchi.aliyun.com/dataset/92312 (天池平台)
使用提示:在科研论文或项目报告中,请务必引用原始论文(Silberman et al., ECCV 2012)以及官方数据集页面,以遵守数据使用协议。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!