项目 | 含义 | 关键特征 |
---|---|---|
RGB‑D | 同时提供彩色图像(RGB)和对应深度图(Depth)的数据集合 | 颜色信息 + 像素级深度,通常已对齐并同步,常伴随相机位姿、语义标注等扩展信息 |
采集设备 | 结构光相机(Kinect v1)、飞行时间相机(Kinect v2、RealSense、Azure Kinect)等 | 不同传感器导致深度噪声、量程差异,需要在使用时注意传感器差异 |
数据格式 | RGB 图像(如 640×480、1280×720)+ 深度图(16‑bit 或浮点)+ 可选的相机内参、姿态、语义/实例标注 | 便于直接喂入卷积网络或用于 SLAM、三维重建等任务 |
1. 为什么需要 RGB‑D 数据集?
- 提升空间感知:深度信息直接提供每个像素的距离,弥补纯 RGB 在尺度、遮挡等方面的不足。
- 多模态学习:深度与颜色的互补特性促进跨模态特征融合,提升目标检测、语义分割、姿态估计等任务的精度。
- 真实场景建模:深度图可直接用于点云生成、三维重建和 SLAM,支持机器人导航、增强现实等应用。
2. 主要应用方向
方向 | 典型任务 | 代表性数据集 |
---|---|---|
室内场景理解 | 语义分割、3D 目标检测、房间布局估计 | NYU Depth V2、SUN RGB‑D、ScanNet、Matterport3D |
物体识别与抓取 | RGB‑D 目标检测、姿态估计、机器人抓取 | RGB‑D Object Dataset、RGB‑D People、ReDWeb‑S |
SLAM 与三维重建 | 稠密/稀疏 SLAM、点云配准 | RGB‑D SLAM Benchmark、ScanNet、DIML/CVL(2 M 图像) |
动作/行为识别 | 人体姿态、动作分类、行为预测 | RGB‑D People、RGB‑D Action、RGB‑D Human Motion Survey |
目标跟踪 | RGB‑D 目标跟踪、遮挡恢复 | PTB、RGBD1K、ARKitTrack、DepthTrack 等 |
3. 代表性公开数据集(按规模与时间顺序)
数据集 | 发布年份 | 场景/规模 | 关键标注 | 采集传感器 |
---|---|---|---|---|
RGB‑D Object Dataset | 2011 | 300 类家庭物体,约 300 k 帧 | RGB、深度、3 D 边框、姿态 | Kinect(结构光) |
NYU Depth V2 | 2012 | 1449 张室内 RGB‑D,51 类 | 颜色、深度、语义标签 | Kinect v1 |
SUN RGB‑D | 2015 | 10 335 张图像,146 617 个 2D 多边形、58 657 个 3D 边框 | 场景类别、2D/3D 标注、房间布局 | 四种深度相机(RealSense、Xtion、Kinect v1/v2) |
RGB‑D SLAM Benchmark | 2015 | 多段室内视频序列 | RGB、深度、相机轨迹 | Kinect v1/v2 |
Matterport3D | 2017 | 90 套住宅,约 150 k 帧 | RGB、深度、3D 网格、房间平面图、语义标注 | |
ScanNet | 2017 | 1 513 场景,约 250 万 帧 | RGB、深度、相机位姿、实例分割、3D 重建 | |
RGB‑D People | 2023 | 6 798 张图像,4 700 人体实例 | 边框、可见性、轨迹关联 | |
RGBD1K | 2023 | 1 050 序列(≈2.5 万帧) | 边框、属性、像素级掩码,专为目标跟踪设计 | |
ARKitTrack | 2023 | 300 序列、455 目标、229.7 k 帧 | RGB、深度、框、像素掩码、属性 | |
DIML/CVL RGB‑D | 2024 | 2 M 张室内/室外图像 | RGB、深度、相机参数,规模最大 | |
RGB‑D People (2023) | 2023 | 6 798 张图像,4 700 人体实例 | 边框、可见性、轨迹关联 |
趋势:近几年出现了 大规模、跨场景(室内+室外)以及 高质量标注(3D 边框、语义体素、像素级掩码)的数据集,如 DIML/CVL、RGBD1K、ARKitTrack,推动了深度学习在 RGB‑D 领域的进一步突破。
4. 使用注意事项
- 深度对齐:不同传感器的深度图可能与 RGB 有尺度或畸变差异,需要使用相机内参进行对齐。
- 噪声与缺失:结构光在强光或远距离会出现缺失,ToF 在高反射表面会产生噪声,数据预处理(填补、滤波)是常规步骤。
- 标注一致性:跨数据集的标签体系(如类别名称、坐标系)不统一,迁移学习时需统一映射。
- 版权与使用协议:大多数公开数据集要求在论文中引用原始工作,部分数据集(如 ARKitTrack)需签署使用协议后方可下载。
5. 小结
RGB‑D 数据集是 同时提供彩色图像与对应深度信息 的多模态视觉资源,广泛用于 室内场景理解、三维重建、机器人感知、目标跟踪和行为识别 等前沿研究。自 2010 年代初的 RGB‑D Object Dataset 起,数据规模从数千帧逐步扩展到 数百万张(DIML/CVL),标注从简单的深度对齐发展到 3D 语义、实例分割、像素级掩码。这些数据集为深度学习模型提供了丰富的训练与评估基准,也推动了硬件(Kinect、RealSense、iPhone LiDAR)与算法(跨模态融合、稠密 SLAM)的协同进步。了解并合理选用合适的 RGB‑D 数据集,是开展相关视觉任务研究的关键第一步。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!