什么是RGB‑D数据集

AI解读 7小时前 硕雀
4 0

RGB‑D 数据集概述

项目 含义 关键特征
RGB‑D 同时提供彩色图像(RGB)和对应深度图(Depth)的数据集合 颜色信息 + 像素级深度,通常已对齐并同步,常伴随相机位姿、语义标注等扩展信息
采集设备 结构光相机(Kinect v1)、飞行时间相机(Kinect v2、RealSense、Azure Kinect)等 不同传感器导致深度噪声、量程差异,需要在使用时注意传感器差异
数据格式 RGB 图像(如 640×480、1280×720)+ 深度图(16‑bit 或浮点)+ 可选的相机内参、姿态、语义/实例标注 便于直接喂入卷积网络或用于 SLAM三维重建等任务

1. 为什么需要 RGB‑D 数据集?

  1. 提升空间感知:深度信息直接提供每个像素的距离,弥补纯 RGB 在尺度、遮挡等方面的不足。
  2. 多模态学习:深度与颜色的互补特性促进跨模态特征融合,提升目标检测语义分割姿态估计等任务的精度。
  3. 真实场景建模:深度图可直接用于点云生成、三维重建和 SLAM,支持机器人导航、增强现实等应用。

2. 主要应用方向

方向 典型任务 代表性数据集
室内场景理解 语义分割、3D 目标检测、房间布局估计 NYU Depth V2、SUN RGB‑D、ScanNet、Matterport3D
物体识别与抓取 RGB‑D 目标检测、姿态估计、机器人抓取 RGB‑D Object Dataset、RGB‑D People、ReDWeb‑S
SLAM 与三维重建 稠密/稀疏 SLAM、点云配准 RGB‑D SLAM Benchmark、ScanNet、DIML/CVL(2 M 图像)
动作/行为识别 人体姿态、动作分类、行为预测 RGB‑D People、RGB‑D Action、RGB‑D Human Motion Survey
目标跟踪 RGB‑D 目标跟踪、遮挡恢复 PTB、RGBD1K、ARKitTrack、DepthTrack 等

3. 代表性公开数据集(按规模与时间顺序)

数据集 发布年份 场景/规模 关键标注 采集传感器
RGB‑D Object Dataset 2011 300 类家庭物体,约 300 k 帧 RGB、深度、3 D 边框、姿态 Kinect(结构光)
NYU Depth V2 2012 1449 张室内 RGB‑D,51 类 颜色、深度、语义标签 Kinect v1
SUN RGB‑D 2015 10 335 张图像,146 617 个 2D 多边形、58 657 个 3D 边框 场景类别、2D/3D 标注、房间布局 四种深度相机(RealSense、Xtion、Kinect v1/v2)
RGB‑D SLAM Benchmark 2015 多段室内视频序列 RGB、深度、相机轨迹 Kinect v1/v2
Matterport3D 2017 90 套住宅,约 150 k 帧 RGB、深度、3D 网格、房间平面图、语义标注
ScanNet 2017 1 513 场景,约 250 万 帧 RGB、深度、相机位姿、实例分割、3D 重建
RGB‑D People 2023 6 798 张图像,4 700 人体实例 边框、可见性、轨迹关联
RGBD1K 2023 1 050 序列(≈2.5 万帧) 边框、属性、像素级掩码,专为目标跟踪设计
ARKitTrack 2023 300 序列、455 目标、229.7 k 帧 RGB、深度、框、像素掩码、属性
DIML/CVL RGB‑D 2024 2 M 张室内/室外图像 RGB、深度、相机参数,规模最大
RGB‑D People (2023) 2023 6 798 张图像,4 700 人体实例 边框、可见性、轨迹关联

趋势:近几年出现了 大规模、跨场景(室内+室外)以及 高质量标注(3D 边框、语义体素、像素级掩码)的数据集,如 DIML/CVL、RGBD1K、ARKitTrack,推动了深度学习在 RGB‑D 领域的进一步突破。


4. 使用注意事项

  1. 深度对齐:不同传感器的深度图可能与 RGB 有尺度或畸变差异,需要使用相机内参进行对齐。
  2. 噪声与缺失:结构光在强光或远距离会出现缺失,ToF 在高反射表面会产生噪声,数据预处理(填补、滤波)是常规步骤。
  3. 标注一致性:跨数据集的标签体系(如类别名称、坐标系)不统一,迁移学习时需统一映射。
  4. 版权与使用协议:大多数公开数据集要求在论文中引用原始工作,部分数据集(如 ARKitTrack)需签署使用协议后方可下载。

5. 小结

RGB‑D 数据集是 同时提供彩色图像与对应深度信息 的多模态视觉资源,广泛用于 室内场景理解、三维重建、机器人感知、目标跟踪和行为识别 等前沿研究。自 2010 年代初的 RGB‑D Object Dataset 起,数据规模从数千帧逐步扩展到 数百万张(DIML/CVL),标注从简单的深度对齐发展到 3D 语义、实例分割、像素级掩码。这些数据集为深度学习模型提供了丰富的训练与评估基准,也推动了硬件(Kinect、RealSense、iPhone LiDAR)与算法(跨模态融合、稠密 SLAM)的协同进步。了解并合理选用合适的 RGB‑D 数据集,是开展相关视觉任务研究的关键第一步。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!