1. 数据集简介
THUMOS 14 是由美国佛罗里达大学计算机视觉实验室(CRCV)在 2014 年组织的 THUMOS Challenge 中发布的动作识别与时序动作检测基准。它以真实的 YouTube 视频为来源,覆盖日常体育与生活动作,广泛用于 动作分类(Action Classification) 与 时序动作定位(Temporal Action Detection) 两大任务。
2. 组成与规模
部分 | 视频数量 | 是否裁剪 | 备注 |
---|---|---|---|
训练集 | 2 765(trimmed) | ✔(已裁剪) | 取自 UCF‑101 的 101 类动作,共 13 320 条短片段 |
验证集 | 1 010(未裁剪) | ✘ | 包含 200 条带时间标注的视频 |
测试集 | 1 574(未裁剪) | ✘ | 包含 213 条带时间标注的视频 |
动作类别 | 20 类 | — | 主要体育动作,如跑步、投篮、踢球等 |
验证集和测试集均为 未裁剪(untrimmed) 视频,标注了每个动作实例的起止时间,验证集 200 条、测试集 213 条,分别对应约 3 007 与 3 358 个动作片段。
3. 任务与标注
- 动作识别(Classification)
- 目标:判断视频中是否出现某一动作类别。
- 训练使用已裁剪的短片段(UCF‑101),每段只包含单一动作。
- 时序动作检测(Temporal Action Detection)
- 目标:在未裁剪的长视频中定位每个动作的 起始帧 / 结束帧 并给出类别。
- 标注形式:
<action_class> <start_time> <end_time>
(秒为单位),每个视频可能包含多个动作实例。 - 该任务对 动作时长差异大(从 0.1 s 到数百秒)提出了挑战。
4. 常用特征与基准
- 特征提取:多数研究使用 Two‑Stream I3D(或 C3D)在 Kinetics 预训练后提取 1024‑D(单流)或 2048‑D(双流)特征。
- 评估指标:mAP(mean Average Precision)在不同 IoU 阈值(0.3、0.5、0.7)下报告。
- 代表性论文:
- R‑C3D: Region Convolutional 3D Network for Temporal Activity Detection(ICCV 2017)
- BMN, SSN, AFSD 等后续模型均在该数据集上报告显著提升。
5. 下载与获取方式
链接 | 说明 |
---|---|
官方主页 | <https://crcv.ucf.edu/THUMOS14/ >(提供数据说明、下载链接) |
Papers with Code 页面 | <https://paperswithcode.com/dataset/thumos14-1 >(汇总代码实现、基准成绩) |
公开镜像(GitHub) | <https://github.com/yanx27/THUMOS14 >(常用下载脚本) |
其他镜像(如 Graviti) | <https://gas.graviti.cn/dataset/hello-dataset/THUMOS14/download >(国内加速) |
下载前需填写 THUMOS14 注册表 并同意使用协议,部分镜像提供压缩包(约 30 GB)。
6. 研究使用情况
自发布以来,THUMOS 14 成为 时序动作检测 领域的标准基准,几乎所有新模型(如 AdaTAD、HR‑Pro、GateHUB、BMN、STALE、MAT、3C‑Net、SPOT 等)都会在该数据集上进行实验对比。它的 长视频、稀疏标注、动作时长跨度大 的特性,使其成为评估模型时空建模能力的“压力测试”。
小结
- THUMOS 14:20 类体育动作,包含 1 010 条验证视频和 1 574 条测试视频,提供精确的时间标注。
- 兼具 动作分类 与 时序动作检测 两大任务,是视频理解研究的核心基准。
- 官方网站与多种镜像均可获取,配套的特征提取与评估脚本已在社区广泛共享。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!