项目 | 说明 | 参考来源 |
---|---|---|
创建机构 | 德国弗赖堡大学(University of Freiburg)社会机器人实验室(Social Robotics Lab) | |
发布时间 | 2011 年首次发布,后续在 2023 年由同校扩展为 “RGB‑D Peoples” 版本 | |
采集环境 | 大学食堂/礼堂的大堂区域,真实的室内公共空间,记录午餐高峰期的自然人流。 | |
传感器配置 | 3 台垂直堆叠的 Microsoft Kinect(结构光)传感器,视场约 130°×50°,30 Hz 同步采集 RGB 与深度图。传感器距地面约 1.5 m,能够降低红外投射之间的干扰。 | |
数据规模 | - 原始序列:> 3000 帧(多视角、多人交叉遮挡) - 标注帧:1088 帧,包含 1648 人体实例的 2D 边界框和可见性标记 - 2023 版 “RGB‑D Peoples” 扩展至 6798 张 RGB‑D 图像,标注 4700 个人体实例(其中 2098 张未标注) |
|
标注信息 | - 2D 边界框(在 RGB 与深度图像坐标系中均提供) - 可见性状态(完全可见、部分遮挡、完全遮挡) - 轨迹关联(在部分序列中提供跨帧的身份关联) |
|
下载方式 | 官方下载链接(常见镜像): http://u3v.cn/5tNHTn (原始 3000+ 帧) https://github.com/nnizhang/SMAC (2023 版数据及说明) |
|
授权协议 | CC BY‑NC‑SA 4.0(非商业使用需署名并保持相同协议) | |
主要应用场景 | - 人体检测与跟踪(机器人、交互系统、智能车辆) - 多模态(RGB + Depth)目标检测基准 - 3D 人体姿态估计、遮挡建模、跨视角跟踪 - 深度学习模型的预训练与迁移学习 |
|
评测协议 | 常用的评估指标包括: · 平均精度(mAP) · 召回率(Recall) · 误检率(FP) · 遮挡下的检测成功率(Visibility‑aware metrics) 官方提供了划分好的训练/验证/测试子集,便于统一对比。 |
|
后续衍生 | - 与该数据集相关的公开基准(如 RGB‑D 人群检测挑战) - 在多模态 SLAM、行为分析、姿态估计等方向的后续数据集(如 NTU RGB‑D、SIP、ReDWeb‑S)常引用该数据集的采集方式与标注规范。 |
关键特性与价值
- 真实场景、自然行为
数据在未受控的公共空间中采集,人物的走动、站立、交叉遮挡等行为均为自然产生,能够很好地反映实际应用中的复杂性。 - 多视角同步深度
三台 Kinect 同时捕获,提供了从不同俯视角度的 RGB‑D 信息,帮助研究跨视角的目标关联与深度融合算法。 - 细粒度标注
除了常规的 2D 边界框,还提供了可见性标签和跨帧身份关联,支持遮挡感知、轨迹预测等高级任务。 - 跨任务通用
同时适用于检测、跟踪、姿态估计、3D 重建等多种视觉任务,成为多模态人体感知研究的基准之一。 - 开放且可复现
数据集在学术界广泛使用,配套的下载链接、文档和基准代码均公开,便于研究者快速复现已有方法并进行对比。
使用建议
- 数据预处理:建议先对深度图进行噪声滤波(如双边滤波)并对齐 RGB 与深度坐标系,以保证标注的一致性。
- 训练/测试划分:遵循官方提供的划分(如 70% 训练、15% 验证、15% 测试),或自行按场景划分以避免同一场景跨集出现导致的泄漏。
- 跨模态融合:可以尝试将深度信息作为额外通道(4‑channel)直接输入卷积网络,或使用深度特征与 RGB 特征分别编码后进行特征级融合。
- 遮挡建模:利用可见性标签训练遮挡感知分支,提升在多人密集场景下的检测鲁棒性。
总结:RGB‑D People 数据集是由弗赖堡大学在 2011 年推出的、面向 RGB‑D 人体检测与跟踪的经典基准。它提供了 3000+ 帧的同步 RGB‑Depth 序列、细致的 2D 边界框与可见性标注,并在 2023 年扩展为更大规模的 “RGB‑D Peoples” 版本。凭借真实的室内人群场景、多视角深度捕获以及丰富的标注信息,已成为机器人、交互系统以及多模态视觉研究中不可或缺的资源。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!