什么是MultiTHUMOS数据集

MultiTHUMOS 数据集概览


1. 什么是 MultiTHUMOS

MultiTHUMOS 是在原始 THUMOS‑14 基础上扩展的多标签动作检测数据集,专为 未裁剪(untrimmed)视频的多标签时序定位 任务设计。它在每一帧上提供密集的动作标注,使得同一时间段可以出现多个动作标签,从而更贴近真实场景的复杂性。

2. 数据规模与基本属性

项目 说明
视频数量 413 条(约 30 小时)
动作类别 65 类(相较于 THUMOS‑14 的 20 类)
训练/验证划分 200 条用于训练,213 条用于验证
平均每帧标签数 1.5 个标签/帧
平均每视频动作数 10.5 个动作实例/视频
标注密度 每帧均有标签,最多可出现 25 条实例

3. 标注方式

  • 帧级多标签:对每一帧进行多标签标注,支持同一帧出现多个动作。
  • 密集标注:相较于 THUMOS‑14 的稀疏标注,MultiTHUMOS 提供了更细粒度的时间边界和动作交叉信息。
  • 动作实例:每段视频平均包含约 11 个单一动作(one‑action),整体上约 400 条视频共计 65 类动作。

4. 评估指标

  • 采用 mAP(mean Average Precision‍ 作为主要评估指标,和 Charades 等多标签数据集保持一致。

5. 主要研究用途

  • 多标签动作检测:评估模型在同一时间段识别多个动作的能力。
  • 时序关系建模:利用密集标签探索动作之间的时间关联。
  • 复杂场景理解:推动从单一动作检测向更真实的多动作交叉场景迁移。

6. 获取方式

内容 链接
数据集下载页面 https://ai.stanford.edu/\~syyeung/everymoment.html
原始论文(arXiv) https://arxiv.org/abs/1507.05738 (《Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos》)
论文 PDF(可直接下载) https://arxiv.org/pdf/1507.05738.pdf

下载页面提供了原始视频、帧级标注文件以及划分信息,使用前请阅读页面的使用协议。

7. 参考文献(可直接查阅)

  1. Yeung, S. Y., Russakovsky, O., Jin, N., et al. “Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos.” arXiv preprint arXiv:1507.05738, 2015.
  2. Piergiovanni, A. J., Ryoo, M. S. “Temporal Gaussian Mixture Layer for Videos.” Proceedings of the 32nd International Conference on Machine Learning, 2019.
  3. Kahatapitiya, K., Ryoo, M. S. “Coarse‑Fine Networks for Temporal Activity Detection in Videos.” CVPR 2021.
  4. Sardari, F., Mustafa, A., Jackson, P. J. B., Hilton, A. “An Effective‑Efficient Approach for Dense Multi‑Label Action Detection.” arXiv:2406.06187, 2024.

简要总结
MultiTHUMOS 是一个面向多标签、密集标注的动作检测基准,包含 413 条约 30 小时的体育类视频,覆盖 65 种动作,提供帧级多标签信息,常用于评估模型的时序定位与多动作识别能力。数据集可通过 Stanford 的官方页面免费下载,配套论文详述了数据的采集与标注流程。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!