什么是THUMOS14(The THUMOS Challenge 2014)数据集

AI解读 2小时前 硕雀
2 0

THUMOS14 数据集概述

THUMOS14The THUMOS Challenge 2014)是计算机视觉领域中用于动作识别Action Classification‍和时序动作定位(Temporal Action Localization/Detection‍的经典基准数据集之一。它是由佛罗里达大学(University of Central Florida)的计算机视觉实验室(CRCV)主办的 THUMOS 挑战赛(THUMOS Challenge)的主要组成部分。

该数据集主要聚焦于体育运动场景,是研究视频中‍“何时发生了什么动作”‍这一问题的核心数据集之一。


核心特征与组成

THUMOS14 数据集的设计理念是从 ‍“已剪辑的短视频”‍(用于训练)到 ‍“未剪辑的长视频”‍(用于测试),模拟真实世界中从网络上获取冗长视频并检测其中动作的任务场景。

1. 训练集Training Set

  • 来源:UCF-101 数据集的剪辑片段。
  • 规模:包含 13,320 段剪辑好的视频片段。
  • 标签:每段视频仅包含单一动作(单标签)。
  • 用途:用于训练动作分类模型,学习不同动作的特征。

2. 测试集Test Set)与验证集Validation Set

  • 特征:包含 未剪辑(Untrimmed)‍ 的长视频。
  • 验证集:1,010 个视频(其中约 200 个带有时间标注)。
  • 测试集:1,574 个视频(其中约 213 个带有时间标注)。
  • 标签:这些视频包含多个动作实例,且有大量背景帧(没有动作)。
  • 任务:需要模型在长视频中检测出所有动作出现的起止时间(时间戳)。

关键统计数据

  • 动作类别:共 20 类体育动作(如篮球扣篮、棒球投球、跳水等)。
  • 难度:每个视频平均包含 15.5 个动作实例,背景帧占比高达 71%,检测难度极大。
  • 数据量:验证集与测试集的总时长约为 70 小时(每个视频平均约 3 分钟,部分长达 7 分钟)。

主要任务与评估指标

1. 时序动作定位(Temporal Action Localization)

  • 任务描述:在未剪辑的长视频中识别并定位所有动作实例的起始时间和结束时间。
  • 评估指标:使用 Mean Average Precision (mAP),在不同的 Temporal Intersection over Union (tIoU) 阈值下计算。例如,tIoU = 0.5 表示检测框与真实框重叠度超过 50% 即为正确。

2. 动作分类(Action Classification)

  • 任务描述:判断一个视频片段中包含的动作类别。
  • 评估指标:通常使用 Accuracy 或 Mean Average Precision (mAP)

相关资源与链接

  1. 官方网站 / 论文原始地址
  2. Papers with Code 数据集页面
  3. GitHub 相关项目
  4. 学术论文引用(BibTeX)
    • 在学术论文中引用该数据集时通常使用的 BibTeX 条目:
    @misc{THUMOS14,
      author = {Jiang, Y.-G. and Liu, J. and Roshan Zamir, A. and Toderici, G. and Laptev, I. and Shah, M. and Sukthankar, R.},
      title = {{THUMOS} Challenge: Action Recognition with a Large Number of Classes},
      howpublished = "\url{http://crcv.ucf.edu/THUMOS14/}",
      Year = {2014}
    }
    

总结

THUMOS14 是研究视频中‍“何时”‍(Temporal)这一维度的基石数据集。它通过未剪辑的长视频和高密度的动作实例,极大推动了时序动作检测(Temporal Action Detection)技术的发展,是检验模型在真实视频中检测能力的“试金石”。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!