什么是RGB‑D Object Dataset（RGB‑D对象数据集）

AI资讯 2小时前硕雀

3 0 0

1. 数据集简介

RGB‑D Object Dataset 是由华盛顿大学（University of Washington）发布的一个面向室内日常物体的多视角 RGB‑D 数据集。它专门用于研究 RGB‑D 目标识别、姿态估计、分割、SLAM 等 任务。数据集使用 Kinect‑style 3D 相机 同步采集 640×480 分辨率的彩色图像和深度图，深度与彩色图像在时间上严格对齐。

2. 数据规模与类别

项目	数量
物体实例	300 个
类别	51 类（水果、蔬菜、工具、容器等）
视频序列	每个物体 3 条（相机高度分别约为 30°、45°、60°）
帧数	约 207 920 帧（约 600 张/物体）
图像总计	约 41 877 张 RGB‑D 图像（常用于基准评估）

此外，数据集还提供 22 段带注释的自然场景视频，这些场景中包含了上述对象，覆盖办公室、会议室、厨房等常见室内环境。

3. 采集与标注方式

采集平台：每个物体放置在转盘上，摄像机固定在约 1 m 距离处，分别从三个不同的俯仰角度（30°、45°、60°）进行拍摄。相机以 30 Hz 记录同步的 RGB 与深度帧。
标注内容：
- 类别标签（51 类）
- 实例分割掩码（像素级前景/背景）
- 6‑DoF 位姿（相机相对物体的姿态）
- 深度图（已对齐、已校准）
- 场景视频的对象框（用于目标检测与跟踪）

这些标注使得数据集能够支撑 对象分类、实例分割、6 DoF 姿态估计、跨视角检索 等多种任务。

4. 下载方式与使用许可

官方主页：http://rgbd-dataset.cs.washington.edu/ （提供完整数据压缩包和文档）
数据以 CC‑BY 4.0 许可发布，学术研究与商业使用均需保留原始作者信息并注明数据来源。

5. 典型应用与基准

任务	常用评估协议
对象识别	10‑fold 交叉验证，每折排除每类的一个实例作为测试集
姿态估计	使用提供的 6‑DoF 位姿标签进行误差统计（旋转误差、平移误差）
实例分割	基于像素掩码的 IoU 评估
场景理解	在 22 段自然场景视频上进行目标检测、跟踪、SLAM 等综合评测

该数据集自发布以来已成为 RGB‑D 目标识别领域的标准基准，被大量论文引用，用于验证深度学习模型、传统特征方法以及跨模态融合技术的效果。

6. 参考文献（部分）

Lai, K. H., Bo, L., & Fei-Fei, L. (2011). A Large-Scale RGB‑D Object Dataset.
Wang, Q. (2020). “RGB‑D Object Dataset”。华盛顿大学实验室报告。

（以上文献均来源于公开的搜索结果，具体引用请参见对应证据编号）

小结：RGB‑D Object Dataset 通过高质量的同步 RGB 与深度图、丰富的多视角采集以及完整的像素级与姿态标注，为研究者提供了一个规模适中、标注细致、场景多样的基准平台，广泛用于对象识别、姿态估计、分割、SLAM 等前沿视觉任务。

RGB‑D Object Dataset RGB‑D数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！