1. 数据集来源与定位
2. 数据规模与采集方式
项目 | 说明 |
---|---|
图像对数 | 10 335 张对齐的 RGB 与深度图像 |
传感器 | 四款主流 RGB‑D 相机:Intel RealSense、Asus Xtion、Microsoft Kinect v1、Kinect v2 |
场景类型 | 20 种室内场景(住宅、办公室、商店等),覆盖日常生活环境 |
标注内容 | • 场景类别 • 2D 像素分割 • 3D 目标边框(方向、尺寸) • 3D 房间布局(平面图) |
语义类别 | 37 类常见室内物体(椅子、桌子、床等) |
训练/测试划分 | 5 285 张用于训练,5 050 张用于测试,遵循官方标准划分 |
3. 数据格式与可用信息
- RGB 图像:标准 8 位彩色图。
- 深度图:原始深度(单位 mm),并提供缺失值填补。
- 相机参数:内参
K
与外参Rt
,用于将深度图转换为点云。 - 点云:可通过深度图与相机标定直接生成,常用于 3D 检测任务。
4. 主要研究任务与评估指标
任务 | 说明 |
---|---|
场景分类 | 基于 RGB‑D 特征预测场景类别。 |
2D 目标检测 / 分割 | 使用 RGB 与深度信息进行像素级分割或边框检测。 |
3D 目标检测 | 在点云上预测 3D 包围盒,常用 mAP(IoU=0.25、0.5)评估。 |
室内布局估计 | 重建房间平面布局,评估交并比(IoU)等指标。 |
跨传感器鲁棒性研究 | 由于采集自四种相机,数据中包含深度估计差异,可用于研究跨传感器偏差。 |
5. 使用现状与最新进展
- 基准地位:被视为室内场景理解最具挑战性的基准之一,广泛用于深度学习、点云处理、跨模态融合等研究。
- 近期论文:2025 年的多模态目标检测、开放词汇 3D 检测等工作仍以 SUN RGB‑D 为主要实验平台,验证新模型在 10 335 场景上的泛化能力。
- 工具链:在 MMDetection3D、OpenMMLab 等开源框架中提供完整的数据预处理、点云抽样、标注加载脚本,便于快速上手。
6. 下载与使用注意事项
- 下载:通过官方网站或镜像站点获取完整压缩包,包含
rgb/
、depth/
、annotation/
等目录。 - 版权:数据集采用学术使用许可,需在论文或项目中注明来源。
- 深度缺失处理:部分深度图存在缺失值,官方提供了基于相邻帧的填补方案,建议在使用前统一处理。
- 传感器差异:不同相机的深度噪声与视场不同,训练时可考虑加入传感器标记或进行数据归一化,以提升模型鲁棒性。
小结
SUN RGB‑D 是目前规模最大、标注最丰富的室内 RGB‑D 数据集之一,提供 10 335 对 RGB‑Depth 图像、完整的 2D/3D 标注以及多传感器采集的多样性。它支撑了从场景分类到 3D 目标检测、室内布局重建等多种任务,已成为学术界和工业界进行室内视觉感知研究的标准基准。通过官方提供的相机标定信息,用户可以轻松生成点云并在多模态框架下开展实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!