1. 简介
SceneNet RGB‑D 是由 Dyson Robotics Laboratory(Imperial College London)等团队在 2016‑2017 年推出的大规模合成室内 RGB‑D 数据集。它通过随机生成的室内布局、随机相机轨迹以及从 ShapeNet 采集的物体模型,使用光线追踪渲染出 约 500 万张 高真实感的 RGB‑D 图像,并提供像素级语义标签、深度、相机位姿等完整的几何标注。
2. 规模与组成
项目 | 说明 |
---|---|
图像总量 | 5 M 张合成 RGB‑D 图像 |
轨迹数量 | 超过 15 000 条随机相机轨迹,每条约 300 帧 |
分辨率 | 320 × 240(部分实现也提供 640 × 480) |
语义类别 | 14 类(墙、地板、椅子、床等) |
实例标签 | 258 种实例标签,兼容 NYU‑Depth V2 标准 |
额外标注 | 完整相机姿态、深度、HHA 编码、实例分割、光流等几何信息 |
3. 关键特性
- 合成但极具真实感:采用光线追踪渲染,光照、纹理、材质均随机化,接近真实照片质量。
- 完备的 Ground‑Truth:每帧提供像素级语义标签、深度、相机位姿,可直接用于 SLAM、相机姿态估计等几何任务。
- 几乎无限的场景配置:基于开放的 SceneNet 布局和 ShapeNet 物体库,理论上可以无限生成新场景,适合大规模预训练。
- 多模态支持:除了原始 RGB 与深度,还提供 HHA 编码、实例分割、光流等,可用于多模态学习。
- 任务导向:专为室内场景理解(语义分割、实例分割、目标检测、深度估计、视觉里程计等)设计,已在 NYU‑Depth V2、SUN RGB‑D 等真实数据集上验证预训练效果显著提升。
4. 主要应用场景
- 语义/实例分割的预训练:在真实数据上微调前先用 SceneNet RGB‑D 进行大规模预训练,可超越 ImageNet 预训练的表现。
- 深度估计与相机位姿估计:利用完美的深度与位姿标签训练端到端的深度或位姿网络。
- SLAM 与 3D 重建:提供真实的相机轨迹与深度,可作为 SLAM 系统的合成基准。
- 多视图对应、光流、场景流:每条轨迹的连续帧提供自然的视角变化,适合学习时序几何特征。
5. 获取方式与重要链接
链接 | 说明 |
---|---|
官方下载页面 | |
arXiv 论文(完整描述) | <https://arxiv.org/abs/1612.05079 >(SceneNet RGB‑D: 5M Photorealistic Images…) |
ICCV 2017 论文 PDF | |
Papers With Code 项目页 | <https://paperswithcode.com/dataset/scenenet-rgb-d >(提供代码、基准结果) |
相关综述表格(数据集概览) | 《面向 RGB‑D 图像的多层特征提取算法综述》表 1 中列出 SceneNet RGB‑D 的基本信息 |
6. 参考文献(可直接引用)
- J. McCormac, A. Handa, S. Leutenegger, A. J. Davison, “SceneNet RGB‑D: Can 5M Synthetic Images Beat Generic ImageNet Pre‑training on Indoor Segmentation?”, ICCV 2017.
- A. Handa, “SceneNet RGB‑D: 5M Photorealistic Images of Synthetic Indoor Trajectories with Ground Truth”, arXiv 1612.05079, 2016.
通过上述链接即可获取完整数据、使用说明以及配套的基准代码,帮助研究者在室内视觉任务中快速构建高质量的预训练模型。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!