Kinetics 系列数据集概览
Kinetics 是由 DeepMind(后期与 Google 合作)发布的大规模视频动作识别基准,所有视频均取自 YouTube,时长约 10 秒,经过多轮人工标注。数据集以“动作类别数”区分不同版本,常用的有 Kinetics‑400、Kinetics‑600、Kinetics‑700。它们在视频数量、类别覆盖和研究价值上逐步扩展,已成为视频理解、时空特征学习、跨模态研究等领域的标准基准。
1. Kinetics‑600
项目 | 内容 |
---|---|
发布年份 | 2018 年(作为 Kinetics‑400 的扩展) |
动作类别 | 600 类(在 Kinetics‑400 基础上新增 200 类) |
视频数量 | 约 500 000 条(训练/验证/测试合计),每类至少 600 条视频 |
每段时长 | 约 10 秒,均为单标签片段 |
来源 | YouTube 视频 URL,均经过多轮人工验证 |
数据划分 | 训练集约 390 k,验证集约 30 k,测试集约 60 k(官方提供) |
许可协议 | CC BY 4.0(可自由使用、商业亦可,只需署名) |
主要论文 | “A Short Note about Kinetics‑600” (Carreira et al., 2018) |
下载地址 | https://www.deepmind.com/open-source/kinetics (官方页面提供 .tar/.zip 下载) |
使用场景 | 视频动作分类、时空特征学习、跨模态(视频‑文本)对齐、视频生成基准等。许多最新模型(I3D、SlowFast、X3D、ViViT 等)均在该数据集上报告 Top‑1/Top‑5 准确率,以衡量时空建模能力 |
2. Kinetics‑700
项目 | 内容 |
---|---|
发布年份 | 2019 年(在 Kinetics‑600 基础上进一步扩展) |
动作类别 | 700 类(保留 600 类并新增 100 类) |
视频数量 | 超过 650 000 条(比 Kinetics‑600 增长约 30%) |
每段时长 | 同样约 10 秒,单标签 |
来源 | YouTube 视频,采用与前代相同的多语言查询、候选匹配与人工验证流程 |
数据划分 | 官方提供训练/验证/测试划分,具体数量略有差异(约 500 k 训练,150 k 验证/测试) |
许可协议 | CC BY 4.0(同 Kinetics‑600) |
主要论文 | “A Short Note on the Kinetics‑700 Human Action Dataset” (Carreira et al., 2019) |
下载地址 | 同 Kinetics 官方页面:https://www.deepmind.com/open-source/kinetics (可选择 700 版) |
基准表现 | 使用 I3D 模型在 Kinetics‑700 上的 Top‑1 准确率约 58.7%(低于 600/400 版,说明难度提升) |
研究价值 | 更丰富的动作语义、更多长尾类别,适合作为大规模预训练数据,提升在小数据集(UCF‑101、HMDB‑51、ActivityNet 等)上的迁移效果 |
3. 关键特征与使用建议
- 多语言采集:Kinetics‑600 引入葡萄牙语等多语言查询,提升了类别覆盖率;Kinetics‑700 继续沿用该策略,使得数据更具全球多样性。
- 单标签设计:每段视频只标注一个动作标签,虽然实际可能包含多动作,但单标签简化了评估并促使模型学习更强的时空辨识能力。
- 规模与计算需求:700 k+ 视频对存储和算力都有较高要求,常见做法是先在 Kinetics‑600/700 上进行预训练,再在目标任务上微调,以降低训练成本并提升效果。
- 跨模态扩展:VATEX、HowTo100M 等数据集在构建时直接复用了 Kinetics‑600 的视频片段,说明它在视频‑文本、视频‑音频等多模态研究中具有重要的桥梁作用。
- 下载与许可证:官方提供的下载链接均在 DeepMind 开源页面,采用 CC BY 4.0,使用时只需保留原始作者署名即可,无需额外授权。
4. 参考链接(官方与论文)
- 官方页面(统一入口): https://www.deepmind.com/open-source/kinetics
- Kinetics‑600 论文: https://arxiv.org/abs/1808.01340 (“A Short Note about Kinetics‑600”)
- Kinetics‑700 论文: https://arxiv.org/abs/1907.06987 (“A Short Note on the Kinetics‑700 Human Action Dataset”)
小结
Kinetics‑600 与 Kinetics‑700 是目前视频动作识别领域最具影响力的两套基准。前者在保持高质量标注的同时将类别从 400 扩展到 600,视频总量约 50 万;后者进一步增加到 700 类、约 65 万视频,提升了长尾动作的覆盖度和整体难度。两者均采用 CC BY 4.0 许可,下载渠道统一,已被广泛用于模型预训练、跨模态对齐以及新算法的评估基准。研究者可根据算力与任务需求选择合适的版本进行实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!