什么是SceneNet RGB‑D 数据集

AI解读 5小时前 硕雀
1 0

SceneNet RGB‑D 数据集概览

1. 简介

SceneNet RGB‑D 是由 Dyson Robotics Laboratory(Imperial College London)等团队在 2016‑2017 年推出的大规模合成室内 RGB‑D 数据集。它通过随机生成的室内布局、随机相机轨迹以及从 ShapeNet 采集的物体模型,使用光线追踪渲染出 约 500 万张 高真实感的 RGB‑D 图像,并提供像素级语义标签、深度、相机位姿等完整的几何标注。

2. 规模与组成

项目 说明
图像总量 5 M 张合成 RGB‑D 图像
轨迹数量 超过 15 000 条随机相机轨迹,每条约 300 帧
分辨率 320 × 240(部分实现也提供 640 × 480)
语义类别 14 类(墙、地板、椅子、床等)
实例标签 258 种实例标签,兼容 NYU‑Depth V2 标准
额外标注 完整相机姿态、深度、HHA 编码、实例分割光流等几何信息

3. 关键特性

  1. 合成但极具真实感:采用光线追踪渲染,光照、纹理、材质均随机化,接近真实照片质量。
  2. 完备的 Ground‑Truth:每帧提供像素级语义标签、深度、相机位姿,可直接用于 SLAM、相机姿态估计等几何任务。
  3. 几乎无限的场景配置:基于开放的 SceneNet 布局和 ShapeNet 物体库,理论上可以无限生成新场景,适合大规模预训练
  4. 多模态支持:除了原始 RGB 与深度,还提供 HHA 编码、实例分割、光流等,可用于多模态学习
  5. 任务导向:专为室内场景理解(语义分割、实例分割、目标检测、深度估计、视觉里程计等)设计,已在 NYU‑Depth V2、SUN RGB‑D 等真实数据集上验证预训练效果显著提升。

4. 主要应用场景

  • 语义/实例分割的预训练:在真实数据上微调前先用 SceneNet RGB‑D 进行大规模预训练,可超越 ImageNet 预训练的表现。
  • 深度估计与相机位姿估计:利用完美的深度与位姿标签训练端到端的深度或位姿网络。
  • SLAM 与 3D 重建:提供真实的相机轨迹与深度,可作为 SLAM 系统的合成基准。
  • 多视图对应、光流、场景流:每条轨迹的连续帧提供自然的视角变化,适合学习时序几何特征。

5. 获取方式与重要链接

链接 说明
官方下载页面
arXiv 论文(完整描述) <https://arxiv.org/abs/1612.05079 >(SceneNet RGB‑D: 5M Photorealistic Images…)
ICCV 2017 论文 PDF
Papers With Code 项目页 <https://paperswithcode.com/dataset/scenenet-rgb-d >(提供代码、基准结果)
相关综述表格(数据集概览 《面向 RGB‑D 图像的多层特征提取算法综述》表 1 中列出 SceneNet RGB‑D 的基本信息

6. 参考文献(可直接引用)

  1. J. McCormac, A. Handa, S. Leutenegger, A. J. Davison, “SceneNet RGB‑D: Can 5M Synthetic Images Beat Generic ImageNet Pre‑training on Indoor Segmentation?”, ICCV 2017.
  2. A. Handa, “SceneNet RGB‑D: 5M Photorealistic Images of Synthetic Indoor Trajectories with Ground Truth”, arXiv 1612.05079, 2016.

通过上述链接即可获取完整数据、使用说明以及配套的基准代码,帮助研究者在室内视觉任务中快速构建高质量的预训练模型。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!