什么是MultiTHUMOS数据集

AI解读 2个月前硕雀

48 0 0

MultiTHUMOS 是在原始 THUMOS‑14 基础上扩展的多标签动作检测数据集，专为 未裁剪（untrimmed）视频的多标签时序定位 任务设计。它在每一帧上提供密集的动作标注，使得同一时间段可以出现多个动作标签，从而更贴近真实场景的复杂性。

内容	链接
数据集下载页面	https://ai.stanford.edu/\~syyeung/everymoment.html
原始论文（arXiv）	https://arxiv.org/abs/1507.05738 （《Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos》）
论文 PDF（可直接下载）	https://arxiv.org/pdf/1507.05738.pdf

下载页面提供了原始视频、帧级标注文件以及划分信息，使用前请阅读页面的使用协议。

Yeung, S. Y., Russakovsky, O., Jin, N., et al. “Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos.” arXiv preprint arXiv:1507.05738, 2015.
Piergiovanni, A. J., Ryoo, M. S. “Temporal Gaussian Mixture Layer for Videos.” Proceedings of the 32nd International Conference on Machine Learning, 2019.
Kahatapitiya, K., Ryoo, M. S. “Coarse‑Fine Networks for Temporal Activity Detection in Videos.” CVPR 2021.
Sardari, F., Mustafa, A., Jackson, P. J. B., Hilton, A. “An Effective‑Efficient Approach for Dense Multi‑Label Action Detection.” arXiv:2406.06187, 2024.

简要总结
MultiTHUMOS 是一个面向多标签、密集标注的动作检测基准，包含 413 条约 30 小时的体育类视频，覆盖 65 种动作，提供帧级多标签信息，常用于评估模型的时序定位与多动作识别能力。数据集可通过 Stanford 的官方页面免费下载，配套论文详述了数据的采集与标注流程。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！