什么是THUMOS 14数据集

THUMOS 14数据集概览


1. 数据集简介

THUMOS 14 是由美国佛罗里达大学计算机视觉实验室(CRCV)在 2014 年组织的 THUMOS Challenge 中发布的动作识别与时序动作检测基准。它以真实的 YouTube 视频为来源,覆盖日常体育与生活动作,广泛用于 动作分类(Action Classification)‍ 与 时序动作定位(Temporal Action Detection‍ 两大任务。


2. 组成与规模

部分 视频数量 是否裁剪 备注
训练集 2 765(trimmed) ✔(已裁剪) 取自 UCF‑101 的 101 类动作,共 13 320 条短片段
验证集 1 010(未裁剪) 包含 200 条带时间标注的视频
测试集 1 574(未裁剪) 包含 213 条带时间标注的视频
动作类别 20 类 主要体育动作,如跑步、投篮、踢球等

验证集和测试集均为 未裁剪(untrimmed)‍ 视频,标注了每个动作实例的起止时间,验证集 200 条、测试集 213 条,分别对应约 3 007 与 3 358 个动作片段。


3. 任务与标注

  1. 动作识别(Classification)
    • 目标:判断视频中是否出现某一动作类别。
    • 训练使用已裁剪的短片段(UCF‑101),每段只包含单一动作。
  2. 时序动作检测(Temporal Action Detection)
    • 目标:在未裁剪的长视频中定位每个动作的 起始帧 / 结束帧 并给出类别。
    • 标注形式:<action_class> <start_time> <end_time>(秒为单位),每个视频可能包含多个动作实例。
    • 该任务对 动作时长差异大(从 0.1 s 到数百秒)提出了挑战。

4. 常用特征与基准

  • 特征提取:多数研究使用 Two‑Stream I3D(或 C3D)在 Kinetics 预训练后提取 1024‑D(单流)或 2048‑D(双流)特征。
  • 评估指标:mAP(mean Average Precision)在不同 IoU 阈值(0.3、0.5、0.7)下报告。
  • 代表性论文
    • R‑C3D: Region Convolutional 3D Network for Temporal Activity Detection(ICCV 2017)
    • BMN, SSN, AFSD 等后续模型均在该数据集上报告显著提升。

5. 下载与获取方式

链接 说明
官方主页 <https://crcv.ucf.edu/THUMOS14/ >(提供数据说明、下载链接)
Papers with Code 页面 <https://paperswithcode.com/dataset/thumos14-1 >(汇总代码实现、基准成绩)
公开镜像(GitHub <https://github.com/yanx27/THUMOS14 >(常用下载脚本)
其他镜像(如 Graviti) <https://gas.graviti.cn/dataset/hello-dataset/THUMOS14/download >(国内加速)

下载前需填写 THUMOS14 注册表 并同意使用协议,部分镜像提供压缩包(约 30 GB)。


6. 研究使用情况

自发布以来,THUMOS 14 成为 时序动作检测 领域的标准基准,几乎所有新模型(如 AdaTAD、HR‑Pro、GateHUB、BMN、STALE、MAT、3C‑Net、SPOT 等)都会在该数据集上进行实验对比。它的 长视频、稀疏标注、动作时长跨度大 的特性,使其成为评估模型时空建模能力的“压力测试”。


小结

  • THUMOS 14:20 类体育动作,包含 1 010 条验证视频和 1 574 条测试视频,提供精确的时间标注。
  • 兼具 动作分类 与 时序动作检测 两大任务,是视频理解研究的核心基准。
  • 官方网站与多种镜像均可获取,配套的特征提取与评估脚本已在社区广泛共享。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!