WildRGB‑D 数据集概述
WildRGB‑D(全称 WildRGB‑D: A Large‑Scale RGB‑D Object Dataset Captured in the Wild)是由上海交通大学、加州大学圣地亚哥分校和 NVIDIA 合作构建的真实场景 RGB‑D 物体数据集。与传统的仅提供 RGB 图像的物体数据集不同,WildRGB‑D 直接采集深度信息,使得 3D 标注更加精确,能够支撑更广泛的下游任务(如新视角合成、相机姿态估计、6‑DoF 物体姿态估计、表面重建等)。
| 项目 | 内容 |
|---|---|
| 规模 | 约 8 500 个物体实例,近 20 000 条 RGB‑D 视频 |
| 类别 | 46 个常见日常物体类别(如杯子、椅子、玩具等) |
| 采集方式 | 使用 iPhone 进行 360° 环绕拍摄,同步获取彩色图像和深度图 |
| 场景多样性 | 视频拍摄于真实、复杂的背景环境,包含单物体、多个物体以及带有静态手部的场景三种设置 |
| 标注内容 | - 每帧的物体掩码 - 真实尺度的相机位姿(camera pose) - 重建的点云数据 |
| 数据组织 | 每个 scene 目录下分别存放 rgb/, depth/, masks/, metadata/,并提供 types.json, nvs_list.json, camera_eval_list.json 等用于不同任务的划分文件 |
| 存储需求 | 完整压缩包约 3.37 TB,解压后约 4 TB |
| 主要用途 | - 新颖视角合成(Novel View Synthesis) - 相机姿态评估(Camera Pose Evaluation) - 6‑DoF 物体姿态估计 - 物体表面重建(Surface Reconstruction) |
技术亮点
- 真实深度采集:直接使用 iPhone 的深度传感器获取深度图,避免了基于 Kinect 或 LIDAR 的室内/室外局限,提升了深度精度和场景多样性。
- 大规模且多样:约 8500 个对象、20000 条视频,覆盖 46 类常见物体,提供了丰富的视角和背景变化,能够有效评估模型在真实世界分布转移下的鲁棒性。
- 完整标注体系:每帧提供像素级掩码、相机内参、外参以及点云,支持从 2D 到 3D 的多任务学习。
- 开放获取:数据集通过 GitHub 项目页面提供下载脚本,用户可按需下载全部或指定类别的数据。
获取方式
- 官方网站 / 项目页面:<https://wildrgbd.github.io/ >(提供数据集概览、下载说明、基准任务说明)
- GitHub 仓库:<https://github.com/wildrgbd/wildrgbd >(包含数据结构、下载脚本、示例代码)
- 论文链接(可在 arXiv 或会议页面检索):“RGBD Objects in the Wild: Scaling Real‑World 3D Object Learning from RGB‑D Videos”,作者 Hongchi Xia 等,2022 年首次公开。
适用研究方向
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!