什么是WildRGB‑D数据集

AI解读 2小时前 硕雀
2 0

WildRGB‑D 数据集概述

WildRGB‑D(全称 WildRGB‑D: A Large‑Scale RGB‑D Object Dataset Captured in the Wild)是由上海交通大学、加州大学圣地亚哥分校和 NVIDIA 合作构建的真实场景 RGB‑D 物体数据集。与传统的仅提供 RGB 图像的物体数据集不同,WildRGB‑D 直接采集深度信息,使得 3D 标注更加精确,能够支撑更广泛的下游任务(如新视角合成、相机姿态估计、6‑DoF 物体姿态估计、表面重建等)。

项目 内容
规模 约 8 500 个物体实例,近 20 000 条 RGB‑D 视频
类别 46 个常见日常物体类别(如杯子、椅子、玩具等)
采集方式 使用 iPhone 进行 360° 环绕拍摄,同步获取彩色图像和深度图
场景多样性 视频拍摄于真实、复杂的背景环境,包含单物体、多个物体以及带有静态手部的场景三种设置
标注内容 - 每帧的物体掩码
- 真实尺度的相机位姿(camera pose)
- 重建的点云数据
数据组织 每个 scene 目录下分别存放 rgb/depth/masks/metadata/,并提供 types.jsonnvs_list.jsoncamera_eval_list.json 等用于不同任务的划分文件
存储需求 完整压缩包约 3.37 TB,解压后约 4 TB
主要用途 - 新颖视角合成(Novel View Synthesis)
- 相机姿态评估(Camera Pose Evaluation)
- 6‑DoF 物体姿态估计
- 物体表面重建(Surface Reconstruction)

技术亮点

  1. 真实深度采集:直接使用 iPhone 的深度传感器获取深度图,避免了基于 Kinect 或 LIDAR 的室内/室外局限,提升了深度精度和场景多样性。
  2. 大规模且多样:约 8500 个对象、20000 条视频,覆盖 46 类常见物体,提供了丰富的视角和背景变化,能够有效评估模型在真实世界分布转移下的鲁棒性
  3. 完整标注体系:每帧提供像素级掩码、相机内参、外参以及点云,支持从 2D 到 3D 的多任务学习
  4. 开放获取:数据集通过 GitHub 项目页面提供下载脚本,用户可按需下载全部或指定类别的数据。

获取方式

适用研究方向

  • 计算机视觉中的 3D 重建姿态估计新视角合成
  • 多模态学习(RGB + Depth)
  • 真实世界分布转移(Domain Generalization)评估
  • 点云生成与处理
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!