什么是NYU‑Depth V2数据集

AI解读 3个月前硕雀

52 0 0

项目	内容	说明
发布机构	纽约大学（NYU）计算机视觉实验室	由 Nathan Silberman、Pushmeet Kohli、Derek Hoiem、Rob Fergus 等人组织，首次公开于 2012 年
采集设备	Microsoft Kinect（RGB + Depth）摄像头	同时记录彩色图像和深度图，深度分辨率 640 × 480 像素
数据规模	- 标注对：1449 对对齐的 RGB‑Depth 图像 - 场景数量：464 个新场景，分布在 3 座城市 - 未标注帧：约 407 024 帧
标注信息	每个像素都有类别标签（40+ 类）并附带实例编号，支持语义分割、实例分割和支撑平面推断
数据划分（常用）‍	官方推荐的训练/测试划分： ‑ 249 场景（≈ 20 k 张）用于训练 ‑ 215 场景（≈ 6 k 张）用于测试
数据组织	- Labeled：预处理后的深度图、密集语义标签 - Raw：原始 RGB、深度、加速度计数据（需自行同步） - Toolbox：MATLAB 实现的处理工具箱，亦有 Python 移植版
主要用途	- 室内语义分割、实例分割 - 支撑平面推断、3D 重建 - 单目/双目深度估计基准（如 NYU‑Depth V2‑test）
下载渠道	官方页面（MATLAB Toolbox） https://cs.nyu.edu/-fergus/datasets/nyu_depth_v2.html 镜像/第三方平台（如 hyper.ai、天池）也提供压缩包下载
常用引用	Silberman et al., “Indoor Segmentation and Support Inference from RGB‑D Images”, ECCV 2012

1. 背景与意义

NYU‑Depth V2 是在室内视觉研究中最早、最广泛使用的 RGB‑D 数据集之一。它通过 Kinect 同时捕获彩色图像和深度图，提供了真实世界的深度测量，弥补了仅靠合成数据或单目图像的不足。由于标注细致、场景多样，成为语义分割、深度估计、3D 场景理解等任务的标准基准。

2. 数据结构细节

文件格式：官方提供的 .mat（MATLAB）文件，内部包含 images、depths、labels、instances 等变量。
深度图：原始深度值以米为单位，存在因遮挡或反射导致的缺失值，官方 Toolbox 已提供填补函数。
语义标签：共 40 类（如 wall、floor、chair 等），每类对应整数 ID；实例标签进一步区分同类不同物体。

3. 使用流程（常见步骤）

下载：从官方页面或镜像站点获取压缩包。

解压并加载（Python 示例）

import h5py, numpy as np
f = h5py.File('nyu_depth_v2_labeled.mat', 'r')
rgb = np.array(f['images'])      # shape: (1449, 3, 480, 640)
depth = np.array(f['depths'])    # shape: (1449, 480, 640)
label = np.array(f['labels'])    # shape: (1449, 480, 640)

（参考代码可在 GitHub Python Toolbox 中找到）

预处理：对深度进行归一化、对缺失值进行插值；对 RGB 进行颜色标准化。
划分：使用官方提供的 train_test_split.mat（或自行按场景划分）确保训练/测试一致性。
模型训练：常见的网络结构包括 ResNet‑based 编码器 + 上采样解码器、Transformer‑based 深度估计模型等。

4. 常见研究成果

语义分割：Silberman 等首次提出的基准在该数据集上实现了 71% 的像素准确率。
单目深度估计：NYU‑Depth V2 被用于评估多种深度预测网络（如 VGG‑Depth、PixelFormer、VPD），并提供了 RMSE、REL、δ1‑δ3 等统一指标。
数据增强：近年来出现的虚拟增强版本（ANYU）在保持原始分辨率的同时加入合成 3D 物体，显著提升跨数据集泛化能力。

5. 获取链接

官方主页（含下载链接 & MATLAB Toolbox）‍： https://cs.nyu.edu/-fergus/datasets/nyu_depth_v2.html
Python Toolbox（GitHub）‍： https://github.com/GabrielMajeri/nyuv2-python-toolbox
第三方镜像（快速下载）‍： https://hyper.ai/datasets/5376 （中文页面）、 https://tianchi.aliyun.com/dataset/92312 （天池平台）

使用提示：在科研论文或项目报告中，请务必引用原始论文（Silberman et al., ECCV 2012）以及官方数据集页面，以遵守数据使用协议。

NYU‑Depth V2 NYU‑Depth V2 数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是NYU‑Depth V2数据集

1. 背景与意义

2. 数据结构细节

3. 使用流程（常见步骤）

4. 常见研究成果

5. 获取链接

什么是MultiCamVideo数据集

什么是语义标签（Semantic Tag）

什么是NYU‑Depth V2数据集

1. 背景与意义

2. 数据结构细节

3. 使用流程（常见步骤）

4. 常见研究成果

5. 获取链接

什么是MultiCamVideo数据集

什么是语义标签（Semantic Tag）

什么是NYU‑Depth V2数据集