什么是HiEve数据集

AI解读 2个月前硕雀

37 0 0

HiEve（Human‑in‑Events）是面向复杂事件中以人为中心的视频分析的大规模基准数据集。它专为多目标跟踪、多人姿态估计、姿态轨迹、以及动作识别/检测等任务设计，提供了密集、层次化的标注，能够帮助研究者在真实、拥挤且充满异常行为的场景下评估和提升算法性能。

项目	数量
视频序列	32（训练 19 + 测试 13）
总帧数	49 820 帧
视频时长	约 33 分 18 秒
场景种类	12（机场、餐厅、工厂、休息室、体育场、监狱、购物中心、广场、学校、车站、街道等）
人体姿态关键点	1 099 357（14 关键点）
动作实例	56 643（覆盖 14 类复杂事件动作）
人物轨迹	2 687 条，平均轨长 ≈ 485 帧（> 480）
每帧人数上限	最高可达 141 人，显著高于 MOT‑17/20、PoseTrack 等基准

多目标跟踪（MOT）‍：提供每帧的边界框与唯一 ID，支持传统指标（MOTA、MOTP、ID F1）以及新颖的 HOTA、加权 MOTA（w‑MOTA）等评估方式。
多人姿态估计：每个人体标注 14 关键点，支持 AP@α 等精度评估；对拥挤场景引入加权指标以鼓励在高 Crowd‑Index 条件下的鲁棒性。
姿态轨迹（Pose Tracking）‍：在姿态基础上提供跨帧关联信息，评估指标同 MOT。
动作识别/检测：细粒度动作标签（如打架、抢劫、地震逃生、上车/下车等），采用帧级 mAP（f‑mAP@α）并加入权重以突出复杂/遮挡场景。

数据集	场景复杂度	姿态数量	动作标签	轨迹长度
COCO / PoseTrack	主要日常、相对稀疏	~250 k	少量	短
MOT‑20	目标跟踪为主，场景单一	—	—	短
HiEve	12 类真实复杂事件，拥挤度最高	>1 M（记录）	>56 k（细粒度）	≈485 帧（最长）

因此，HiEve 在规模、标注丰富度、场景多样性方面均领先，是推动人‑中心视频分析向真实世界迁移的关键资源。

总结：HiEve 通过大规模、密集且层次化的标注，填补了现有数据集在复杂、拥挤事件上的空白，为多任务人‑中心视频分析提供了统一、挑战性强的基准平台。研究者可通过官方站点下载完整数据并使用在线评估服务器进行公平比较，进一步推动该领域的技术进步。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！