HiEve(Human‑in‑Events)是面向复杂事件中以人为中心的视频分析的大规模基准数据集。它专为多目标跟踪、多人姿态估计、姿态轨迹、以及动作识别/检测等任务设计,提供了密集、层次化的标注,能够帮助研究者在真实、拥挤且充满异常行为的场景下评估和提升算法性能。
1. 数据规模与基本统计
项目 | 数量 |
---|---|
视频序列 | 32(训练 19 + 测试 13) |
总帧数 | 49 820 帧 |
视频时长 | 约 33 分 18 秒 |
场景种类 | 12(机场、餐厅、工厂、休息室、体育场、监狱、购物中心、广场、学校、车站、街道等) |
人体姿态关键点 | 1 099 357(14 关键点) |
动作实例 | 56 643(覆盖 14 类复杂事件动作) |
人物轨迹 | 2 687 条,平均轨长 ≈ 485 帧(> 480) |
每帧人数上限 | 最高可达 141 人,显著高于 MOT‑17/20、PoseTrack 等基准 |
2. 标注层次与任务
- 多目标跟踪(MOT):提供每帧的边界框与唯一 ID,支持传统指标(MOTA、MOTP、ID F1)以及新颖的 HOTA、加权 MOTA(w‑MOTA)等评估方式。
- 多人姿态估计:每个人体标注 14 关键点,支持 AP@α 等精度评估;对拥挤场景引入加权指标以鼓励在高 Crowd‑Index 条件下的鲁棒性。
- 姿态轨迹(Pose Tracking):在姿态基础上提供跨帧关联信息,评估指标同 MOT。
- 动作识别/检测:细粒度动作标签(如打架、抢劫、地震逃生、上车/下车等),采用帧级 mAP(f‑mAP@α)并加入权重以突出复杂/遮挡场景。
3. 场景与事件特点
- 复杂事件:包括打架、抢劫、地震逃生、碰撞、拥挤上下车等异常情境,场景多样且交叉出现。
- 高拥挤度:Crowd‑Index 明显高于 MPII、MS‑COCO、CrowdPose 等公开数据,适合评估在密集人群中的姿态估计与跟踪能力。
- 长时序轨迹:轨迹长度平均 485 帧,包含大量“断开‑重现”情况,推动算法在长期身份保持(Re‑ID)上的研究。
4. 数据获取与使用
- 官方网站(下载入口):<http://humaninevents.org >(提供全部视频、标注文件及评估服务器)。
- 论文 DOI:10.1007/s11263‑023‑01842‑6,可直接访问获取论文全文与数据说明。
- 评估平台:官方提供在线评估服务器,研究者可提交结果获得统一评分,便于公平比较。
5. 与其他基准的对比(关键优势)
数据集 | 场景复杂度 | 姿态数量 | 动作标签 | 轨迹长度 |
---|---|---|---|---|
COCO / PoseTrack | 主要日常、相对稀疏 | ~250 k | 少量 | 短 |
MOT‑20 | 目标跟踪为主,场景单一 | — | — | 短 |
HiEve | 12 类真实复杂事件,拥挤度最高 | >1 M(记录) | >56 k(细粒度) | ≈485 帧(最长) |
因此,HiEve 在规模、标注丰富度、场景多样性方面均领先,是推动人‑中心视频分析向真实世界迁移的关键资源。
6. 适用研究方向
总结:HiEve 通过大规模、密集且层次化的标注,填补了现有数据集在复杂、拥挤事件上的空白,为多任务人‑中心视频分析提供了统一、挑战性强的基准平台。研究者可通过官方站点下载完整数据并使用在线评估服务器进行公平比较,进一步推动该领域的技术进步。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!