1. 什么是 MultiTHUMOS
MultiTHUMOS 是在原始 THUMOS‑14 基础上扩展的多标签动作检测数据集,专为 未裁剪(untrimmed)视频的多标签时序定位 任务设计。它在每一帧上提供密集的动作标注,使得同一时间段可以出现多个动作标签,从而更贴近真实场景的复杂性。
2. 数据规模与基本属性
项目 | 说明 |
---|---|
视频数量 | 413 条(约 30 小时) |
动作类别 | 65 类(相较于 THUMOS‑14 的 20 类) |
训练/验证划分 | 200 条用于训练,213 条用于验证 |
平均每帧标签数 | 1.5 个标签/帧 |
平均每视频动作数 | 10.5 个动作实例/视频 |
标注密度 | 每帧均有标签,最多可出现 25 条实例 |
3. 标注方式
- 帧级多标签:对每一帧进行多标签标注,支持同一帧出现多个动作。
- 密集标注:相较于 THUMOS‑14 的稀疏标注,MultiTHUMOS 提供了更细粒度的时间边界和动作交叉信息。
- 动作实例:每段视频平均包含约 11 个单一动作(one‑action),整体上约 400 条视频共计 65 类动作。
4. 评估指标
- 采用 mAP(mean Average Precision) 作为主要评估指标,和 Charades 等多标签数据集保持一致。
5. 主要研究用途
- 多标签动作检测:评估模型在同一时间段识别多个动作的能力。
- 时序关系建模:利用密集标签探索动作之间的时间关联。
- 复杂场景理解:推动从单一动作检测向更真实的多动作交叉场景迁移。
6. 获取方式
内容 | 链接 |
---|---|
数据集下载页面 | https://ai.stanford.edu/\~syyeung/everymoment.html |
原始论文(arXiv) | https://arxiv.org/abs/1507.05738 (《Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos》) |
论文 PDF(可直接下载) | https://arxiv.org/pdf/1507.05738.pdf |
下载页面提供了原始视频、帧级标注文件以及划分信息,使用前请阅读页面的使用协议。
7. 参考文献(可直接查阅)
- Yeung, S. Y., Russakovsky, O., Jin, N., et al. “Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos.” arXiv preprint arXiv:1507.05738, 2015.
- Piergiovanni, A. J., Ryoo, M. S. “Temporal Gaussian Mixture Layer for Videos.” Proceedings of the 32nd International Conference on Machine Learning, 2019.
- Kahatapitiya, K., Ryoo, M. S. “Coarse‑Fine Networks for Temporal Activity Detection in Videos.” CVPR 2021.
- Sardari, F., Mustafa, A., Jackson, P. J. B., Hilton, A. “An Effective‑Efficient Approach for Dense Multi‑Label Action Detection.” arXiv:2406.06187, 2024.
简要总结
MultiTHUMOS 是一个面向多标签、密集标注的动作检测基准,包含 413 条约 30 小时的体育类视频,覆盖 65 种动作,提供帧级多标签信息,常用于评估模型的时序定位与多动作识别能力。数据集可通过 Stanford 的官方页面免费下载,配套论文详述了数据的采集与标注流程。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!