1. 数据集来源与采集方式
- 由纽约大学(NYU)视觉与机器人实验室组织,使用 Microsoft Kinect(RGB + Depth)相机在多个城市的室内环境中拍摄视频序列。
- 捕获的原始数据包括同步的 RGB 图像、深度图、加速度计信息,采样率约 20‑30 fps。
2. 规模与组成
项目 | 数量 | 说明 |
---|---|---|
标注(密集)RGB‑Depth 对 | 1449 对 | 对齐的 RGB 与深度图像,已填补缺失深度值 |
场景数量 | 464 个 | 来自 3 个城市的不同室内场景 |
未标记帧 | ≈ 407 024 帧 | 供自监督或预训练使用 |
训练 / 测试划分 | 795 / 654 张 | 官方标准划分,常用于深度估计与语义分割 |
图像分辨率 | 640 × 480(原始) 常下采样至 320 × 240 或 288 × 384 进行实验 |
|
类别数 | 40 类像素级语义标签 | |
实例标注 | 每个对象都有 类 + 实例 ID,支持实例分割 |
3. 标注信息
- 语义标签:40 类室内对象(如墙壁、地板、家具、植物等),并提供 10 个细粒子子类。
- 实例 ID:同类不同实例可区分,适合实例分割与对象检测任务。
- 深度编码:除原始深度外,还提供 HHA(水平、垂直、深度)编码,便于学习深度特征。
4. 主要研究任务与应用
任务 | 典型使用方式 |
---|---|
单目深度估计 | 训练深度回归网络,评估 RMSE、δ1 等指标 |
RGB‑D 语义分割 | 像素级分类,使用 40 类标签进行评估(fwavacc、avacc 等) |
实例分割 / 目标检测 | 利用实例 ID 进行多目标检测与分割 |
场景理解 / 机器人导航 | 结合深度与语义信息,支持室内机器人路径规划与交互推理 |
跨模态学习 | 与合成或其他 RGB‑D 数据集(如 SUN‑RGBD)联合训练,提高模型泛化 |
5. 下载与使用资源
- 官方主页提供 MATLAB 与 Python 工具箱,数据以
.mat
、.png
、.npy
等格式发布,下载地址为https://cs.nyu.edu/\~silberman/datasets/nyu_depth_v2.html
(页面在多篇文献中被引用)。 - 社区维护的 Python 支持库(nyuv2‑python‑toolbox)提供数据读取、预处理、数据增强等高层 API,便于快速上手。
6. 常用评估指标
- 深度估计:RMSE、MAE、δ1、δ2、δ3 等。
- 语义分割:像素准确率(pixAcc)、平均交并比(mIoU)、频加权交并比(fwIoU)等。
- 这些指标在多篇基准报告中被统一使用,便于不同方法的公平比较。
7. 数据集的优势与局限
- 优势:
- 高质量、对齐的 RGB‑Depth 对,配套丰富的语义与实例标注。
- 场景多样(464 场、3 城市),覆盖常见室内布局。
- 提供大量未标记帧,支持自监督学习。
- 局限:
- 相比更大规模的室内数据集(如 ScanNet),标注图像数量(1449)仍较少,限制了超大模型的直接训练。
- 深度图存在噪声与缺失,需要预处理或使用 HHA 编码来缓解。
小结
NYU Depth V2 是室内 RGB‑D 研究的经典基准,提供了 1449 对高质量对齐的 RGB 与深度图像、40 类像素级语义标签以及实例标注,配套未标记帧可用于自监督预训练。它广泛用于单目深度估计、语义/实例分割、场景理解等任务,并通过统一的评估协议推动了深度学习在室内视觉领域的快速发展。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!