什么是SceneNet RGB‑D 数据集

AI解读 2个月前硕雀

18 0 0

1. 简介

SceneNet RGB‑D 是由 Dyson Robotics Laboratory（Imperial College London）等团队在 2016‑2017 年推出的大规模合成室内 RGB‑D 数据集。它通过随机生成的室内布局、随机相机轨迹以及从 ShapeNet 采集的物体模型，使用光线追踪渲染出 约 500 万张 高真实感的 RGB‑D 图像，并提供像素级语义标签、深度、相机位姿等完整的几何标注。

2. 规模与组成

项目	说明
图像总量	5 M 张合成 RGB‑D 图像
轨迹数量	超过 15 000 条随机相机轨迹，每条约 300 帧
分辨率	320 × 240（部分实现也提供 640 × 480）
语义类别	14 类（墙、地板、椅子、床等）
实例标签	258 种实例标签，兼容 NYU‑Depth V2 标准
额外标注	完整相机姿态、深度、HHA 编码、实例分割、光流等几何信息

3. 关键特性

合成但极具真实感：采用光线追踪渲染，光照、纹理、材质均随机化，接近真实照片质量。
完备的 Ground‑Truth：每帧提供像素级语义标签、深度、相机位姿，可直接用于 SLAM、相机姿态估计等几何任务。
几乎无限的场景配置：基于开放的 SceneNet 布局和 ShapeNet 物体库，理论上可以无限生成新场景，适合大规模预训练。
多模态支持：除了原始 RGB 与深度，还提供 HHA 编码、实例分割、光流等，可用于多模态学习。
任务导向：专为室内场景理解（语义分割、实例分割、目标检测、深度估计、视觉里程计等）设计，已在 NYU‑Depth V2、SUN RGB‑D 等真实数据集上验证预训练效果显著提升。

4. 主要应用场景

语义/实例分割的预训练：在真实数据上微调前先用 SceneNet RGB‑D 进行大规模预训练，可超越 ImageNet 预训练的表现。
深度估计与相机位姿估计：利用完美的深度与位姿标签训练端到端的深度或位姿网络。
SLAM 与 3D 重建：提供真实的相机轨迹与深度，可作为 SLAM 系统的合成基准。
多视图对应、光流、场景流：每条轨迹的连续帧提供自然的视角变化，适合学习时序几何特征。

5. 获取方式与重要链接

链接	说明
官方下载页面
arXiv 论文（完整描述）	<https://arxiv.org/abs/1612.05079 >（SceneNet RGB‑D: 5M Photorealistic Images…）
ICCV 2017 论文 PDF
Papers With Code 项目页	<https://paperswithcode.com/dataset/scenenet-rgb-d >（提供代码、基准结果）
相关综述表格（数据集概览）	《面向 RGB‑D 图像的多层特征提取算法综述》表 1 中列出 SceneNet RGB‑D 的基本信息

6. 参考文献（可直接引用）

J. McCormac, A. Handa, S. Leutenegger, A. J. Davison, “SceneNet RGB‑D: Can 5M Synthetic Images Beat Generic ImageNet Pre‑training on Indoor Segmentation?”, ICCV 2017.
A. Handa, “SceneNet RGB‑D: 5M Photorealistic Images of Synthetic Indoor Trajectories with Ground Truth”, arXiv 1612.05079, 2016.

通过上述链接即可获取完整数据、使用说明以及配套的基准代码，帮助研究者在室内视觉任务中快速构建高质量的预训练模型。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是SceneNet RGB‑D 数据集

1. 简介

2. 规模与组成

3. 关键特性

4. 主要应用场景

5. 获取方式与重要链接

6. 参考文献（可直接引用）

什么是InteriorNet 数据集

什么是BDD100K 数据集

什么是SceneNet RGB‑D 数据集

1. 简介

2. 规模与组成

3. 关键特性

4. 主要应用场景

5. 获取方式与重要链接

6. 参考文献（可直接引用）

什么是InteriorNet 数据集

什么是BDD100K 数据集

什么是SceneNet RGB‑D 数据集