什么是WildRGB‑D数据集

AI解读 3个月前硕雀

68 0 0

WildRGB‑D（全称 WildRGB‑D: A Large‑Scale RGB‑D Object Dataset Captured in the Wild）是由上海交通大学、加州大学圣地亚哥分校和 NVIDIA 合作构建的真实场景 RGB‑D 物体数据集。与传统的仅提供 RGB 图像的物体数据集不同，WildRGB‑D 直接采集深度信息，使得 3D 标注更加精确，能够支撑更广泛的下游任务（如新视角合成、相机姿态估计、6‑DoF 物体姿态估计、表面重建等）。

项目	内容
规模	约 8 500 个物体实例，近 20 000 条 RGB‑D 视频
类别	46 个常见日常物体类别（如杯子、椅子、玩具等）
采集方式	使用 iPhone 进行 360° 环绕拍摄，同步获取彩色图像和深度图
场景多样性	视频拍摄于真实、复杂的背景环境，包含单物体、多个物体以及带有静态手部的场景三种设置
标注内容	- 每帧的物体掩码 - 真实尺度的相机位姿（camera pose） - 重建的点云数据
数据组织	每个 scene 目录下分别存放 `rgb/`, `depth/`, `masks/`, `metadata/`，并提供 `types.json`, `nvs_list.json`, `camera_eval_list.json` 等用于不同任务的划分文件
存储需求	完整压缩包约 3.37 TB，解压后约 4 TB
主要用途	- 新颖视角合成（Novel View Synthesis） - 相机姿态评估（Camera Pose Evaluation） - 6‑DoF 物体姿态估计 - 物体表面重建（Surface Reconstruction）

技术亮点

真实深度采集：直接使用 iPhone 的深度传感器获取深度图，避免了基于 Kinect 或 LIDAR 的室内/室外局限，提升了深度精度和场景多样性。
大规模且多样：约 8500 个对象、20000 条视频，覆盖 46 类常见物体，提供了丰富的视角和背景变化，能够有效评估模型在真实世界分布转移下的鲁棒性。
完整标注体系：每帧提供像素级掩码、相机内参、外参以及点云，支持从 2D 到 3D 的多任务学习。
开放获取：数据集通过 GitHub 项目页面提供下载脚本，用户可按需下载全部或指定类别的数据。

获取方式

官方网站 / 项目页面：<https://wildrgbd.github.io/ >（提供数据集概览、下载说明、基准任务说明）
GitHub 仓库：<https://github.com/wildrgbd/wildrgbd >（包含数据结构、下载脚本、示例代码）
论文链接（可在 arXiv 或会议页面检索）：“RGBD Objects in the Wild: Scaling Real‑World 3D Object Learning from RGB‑D Videos”，作者 Hongchi Xia 等，2022 年首次公开。

适用研究方向

计算机视觉中的 3D 重建、姿态估计、新视角合成
多模态学习（RGB + Depth）
真实世界分布转移（Domain Generalization）评估
点云生成与处理

WildRGB‑D WildRGB‑D数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是WildRGB‑D数据集

什么是Kubric数据集

什么是短程门控卷积（Gated Convolution）

什么是WildRGB‑D数据集

什么是Kubric数据集

什么是短程门控卷积（Gated Convolution）

什么是短程门控卷积（Gated Convolution）