什么是THUMOS 14数据集

AI解读 5个月前硕雀

161 0 0

1. 数据集简介

THUMOS 14 是由美国佛罗里达大学计算机视觉实验室（CRCV）在 2014 年组织的 THUMOS Challenge 中发布的动作识别与时序动作检测基准。它以真实的 YouTube 视频为来源，覆盖日常体育与生活动作，广泛用于 动作分类（Action Classification）‍ 与 时序动作定位（Temporal Action Detection）‍ 两大任务。

2. 组成与规模

部分	视频数量	是否裁剪	备注
训练集	2 765（trimmed）	✔（已裁剪）	取自 UCF‑101 的 101 类动作，共 13 320 条短片段
验证集	1 010（未裁剪）	✘	包含 200 条带时间标注的视频
测试集	1 574（未裁剪）	✘	包含 213 条带时间标注的视频
动作类别	20 类	—	主要体育动作，如跑步、投篮、踢球等

验证集和测试集均为 未裁剪（untrimmed）‍ 视频，标注了每个动作实例的起止时间，验证集 200 条、测试集 213 条，分别对应约 3 007 与 3 358 个动作片段。

3. 任务与标注

动作识别（Classification）‍
- 目标：判断视频中是否出现某一动作类别。
- 训练使用已裁剪的短片段（UCF‑101），每段只包含单一动作。
时序动作检测（Temporal Action Detection）‍
- 目标：在未裁剪的长视频中定位每个动作的 起始帧 / 结束帧 并给出类别。
- 标注形式：<action_class> <start_time> <end_time>（秒为单位），每个视频可能包含多个动作实例。
- 该任务对 动作时长差异大（从 0.1 s 到数百秒）提出了挑战。

4. 常用特征与基准

特征提取：多数研究使用 Two‑Stream I3D（或 C3D）在 Kinetics 预训练后提取 1024‑D（单流）或 2048‑D（双流）特征。
评估指标：mAP（mean Average Precision）在不同 IoU 阈值（0.3、0.5、0.7）下报告。
代表性论文：
- R‑C3D: Region Convolutional 3D Network for Temporal Activity Detection（ICCV 2017）
- BMN, SSN, AFSD 等后续模型均在该数据集上报告显著提升。

5. 下载与获取方式

链接	说明
官方主页	<https://crcv.ucf.edu/THUMOS14/ >（提供数据说明、下载链接）
Papers with Code 页面	<https://paperswithcode.com/dataset/thumos14-1 >（汇总代码实现、基准成绩）
公开镜像（GitHub）	<https://github.com/yanx27/THUMOS14 >（常用下载脚本）
其他镜像（如 Graviti）	<https://gas.graviti.cn/dataset/hello-dataset/THUMOS14/download >（国内加速）

下载前需填写 THUMOS14 注册表 并同意使用协议，部分镜像提供压缩包（约 30 GB）。

6. 研究使用情况

自发布以来，THUMOS 14 成为 时序动作检测 领域的标准基准，几乎所有新模型（如 AdaTAD、HR‑Pro、GateHUB、BMN、STALE、MAT、3C‑Net、SPOT 等）都会在该数据集上进行实验对比。它的 长视频、稀疏标注、动作时长跨度大 的特性，使其成为评估模型时空建模能力的“压力测试”。

小结

THUMOS 14：20 类体育动作，包含 1 010 条验证视频和 1 574 条测试视频，提供精确的时间标注。
兼具 动作分类 与 时序动作检测 两大任务，是视频理解研究的核心基准。
官方网站与多种镜像均可获取，配套的特征提取与评估脚本已在社区广泛共享。

THUMOS 14 THUMOS 14数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是THUMOS 14数据集

1. 数据集简介

2. 组成与规模

3. 任务与标注

4. 常用特征与基准

5. 下载与获取方式

6. 研究使用情况

小结

什么是MERL Shopping数据集

什么是ActivityNet数据集

什么是THUMOS 14数据集

1. 数据集简介

2. 组成与规模

3. 任务与标注

4. 常用特征与基准

5. 下载与获取方式

6. 研究使用情况

小结

什么是MERL Shopping数据集

什么是ActivityNet数据集

什么是THUMOS 14数据集