什么是NYU Depth V2 数据集

AI解读 7小时前硕雀

3 0 0

NYU Depth V2 数据集概览

1. 数据集来源与采集方式

由纽约大学（NYU）视觉与机器人实验室组织，使用 Microsoft Kinect（RGB + Depth）相机在多个城市的室内环境中拍摄视频序列。
捕获的原始数据包括同步的 RGB 图像、深度图、加速度计信息，采样率约 20‑30 fps。

2. 规模与组成

项目	数量	说明
标注（密集）RGB‑Depth 对	1449 对	对齐的 RGB 与深度图像，已填补缺失深度值
场景数量	464 个	来自 3 个城市的不同室内场景
未标记帧	≈ 407 024 帧	供自监督或预训练使用
训练 / 测试划分	795 / 654 张	官方标准划分，常用于深度估计与语义分割
图像分辨率	640 × 480（原始）常下采样至 320 × 240 或 288 × 384 进行实验
类别数	40 类像素级语义标签
实例标注	每个对象都有类 + 实例 ID，支持实例分割

3. 标注信息

语义标签：40 类室内对象（如墙壁、地板、家具、植物等），并提供 10 个细粒子子类。
实例 ID：同类不同实例可区分，适合实例分割与对象检测任务。
深度编码：除原始深度外，还提供 HHA（水平、垂直、深度）编码，便于学习深度特征。

4. 主要研究任务与应用

任务	典型使用方式
单目深度估计	训练深度回归网络，评估 RMSE、δ₁ 等指标
RGB‑D 语义分割	像素级分类，使用 40 类标签进行评估（fwavacc、avacc 等）
实例分割 / 目标检测	利用实例 ID 进行多目标检测与分割
场景理解 / 机器人导航	结合深度与语义信息，支持室内机器人路径规划与交互推理
跨模态学习	与合成或其他 RGB‑D 数据集（如 SUN‑RGBD）联合训练，提高模型泛化

5. 下载与使用资源

官方主页提供 MATLAB 与 Python 工具箱，数据以 .mat、.png、.npy 等格式发布，下载地址为 https://cs.nyu.edu/\~silberman/datasets/nyu_depth_v2.html （页面在多篇文献中被引用）。
社区维护的 Python 支持库（nyuv2‑python‑toolbox）提供数据读取、预处理、数据增强等高层 API，便于快速上手。

6. 常用评估指标

深度估计：RMSE、MAE、δ₁、δ₂、δ₃ 等。
语义分割：像素准确率（pixAcc）、平均交并比（mIoU）、频加权交并比（fwIoU）等。
这些指标在多篇基准报告中被统一使用，便于不同方法的公平比较。

7. 数据集的优势与局限

优势：
- 高质量、对齐的 RGB‑Depth 对，配套丰富的语义与实例标注。
- 场景多样（464 场、3 城市），覆盖常见室内布局。
- 提供大量未标记帧，支持自监督学习。
局限：
- 相比更大规模的室内数据集（如 ScanNet），标注图像数量（1449）仍较少，限制了超大模型的直接训练。
- 深度图存在噪声与缺失，需要预处理或使用 HHA 编码来缓解。

小结
NYU Depth V2 是室内 RGB‑D 研究的经典基准，提供了 1449 对高质量对齐的 RGB 与深度图像、40 类像素级语义标签以及实例标注，配套未标记帧可用于自监督预训练。它广泛用于单目深度估计、语义/实例分割、场景理解等任务，并通过统一的评估协议推动了深度学习在室内视觉领域的快速发展。

NYU Depth V2 数据集 RGB-D数据集 RGB-D视频数据集室内理解数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！