什么是RGB‑D People数据集

AI解读 3小时前 硕雀
6 0

RGB‑D People 数据集概览

项目 说明 参考来源
创建机构 德国弗赖堡大学(University of Freiburg)社会机器人实验室(Social Robotics Lab)
发布时间 2011 年首次发布,后续在 2023 年由同校扩展为 “RGB‑D Peoples” 版本
采集环境 大学食堂/礼堂的大堂区域,真实的室内公共空间,记录午餐高峰期的自然人流。
传感器配置 3 台垂直堆叠的 Microsoft Kinect(结构光)传感器,视场约 130°×50°,30 Hz 同步采集 RGB 与深度图。传感器距地面约 1.5 m,能够降低红外投射之间的干扰。
数据规模 - 原始序列:> 3000 帧(多视角、多人交叉遮挡)
- 标注帧:1088 帧,包含 1648 人体实例的 2D 边界框和可见性标记
- 2023 版 “RGB‑D Peoples” 扩展至 6798 张 RGB‑D 图像,标注 4700 个人体实例(其中 2098 张未标注)
标注信息 - 2D 边界框(在 RGB 与深度图像坐标系中均提供)
- 可见性状态(完全可见、部分遮挡、完全遮挡)
- 轨迹关联(在部分序列中提供跨帧的身份关联)
下载方式 官方下载链接(常见镜像):
http://u3v.cn/5tNHTn (原始 3000+ 帧)
https://github.com/nnizhang/SMAC (2023 版数据及说明)
授权协议 CC BY‑NC‑SA 4.0(非商业使用需署名并保持相同协议)
主要应用场景 - 人体检测与跟踪(机器人、交互系统、智能车辆)
- 多模态(RGB + Depth目标检测基准
- 3D 人体姿态估计、遮挡建模、跨视角跟踪
- 深度学习模型的预训练迁移学习
评测协议 常用的评估指标包括:
· 平均精度(mAP)
· 召回率Recall
· 误检率(FP)
· 遮挡下的检测成功率(Visibility‑aware metrics)
官方提供了划分好的训练/验证/测试子集,便于统一对比。
后续衍生 - 与该数据集相关的公开基准(如 RGB‑D 人群检测挑战)
- 在多模态 SLAM、行为分析、姿态估计等方向的后续数据集(如 NTU RGB‑D、SIP、ReDWeb‑S)常引用该数据集的采集方式与标注规范。

关键特性与价值

  1. 真实场景、自然行为
    数据在未受控的公共空间中采集,人物的走动、站立、交叉遮挡等行为均为自然产生,能够很好地反映实际应用中的复杂性。
  2. 多视角同步深度
    三台 Kinect 同时捕获,提供了从不同俯视角度的 RGB‑D 信息,帮助研究跨视角的目标关联与深度融合算法。
  3. 细粒度标注
    除了常规的 2D 边界框,还提供了可见性标签和跨帧身份关联,支持遮挡感知、轨迹预测等高级任务。
  4. 跨任务通用
    同时适用于检测、跟踪、姿态估计、3D 重建等多种视觉任务,成为多模态人体感知研究的基准之一。
  5. 开放且可复现
    数据集在学术界广泛使用,配套的下载链接、文档和基准代码均公开,便于研究者快速复现已有方法并进行对比。

使用建议

  • 数据预处理:建议先对深度图进行噪声滤波(如双边滤波)并对齐 RGB 与深度坐标系,以保证标注的一致性。
  • 训练/测试划分:遵循官方提供的划分(如 70% 训练、15% 验证、15% 测试),或自行按场景划分以避免同一场景跨集出现导致的泄漏。
  • 跨模态融合:可以尝试将深度信息作为额外通道(4‑channel)直接输入卷积网络,或使用深度特征与 RGB 特征分别编码后进行特征级融合。
  • 遮挡建模:利用可见性标签训练遮挡感知分支,提升在多人密集场景下的检测鲁棒性

总结:RGB‑D People 数据集是由弗赖堡大学在 2011 年推出的、面向 RGB‑D 人体检测与跟踪的经典基准。它提供了 3000+ 帧的同步 RGB‑Depth 序列、细致的 2D 边界框与可见性标注,并在 2023 年扩展为更大规模的 “RGB‑D Peoples” 版本。凭借真实的室内人群场景、多视角深度捕获以及丰富的标注信息,已成为机器人、交互系统以及多模态视觉研究中不可或缺的资源。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!