什么是Kinetics系列数据集

AI解读 5个月前硕雀

95 0 0

Kinetics 系列数据集概览
Kinetics 是由 DeepMind（后期与 Google 合作）发布的大规模视频动作识别基准，所有视频均取自 YouTube，时长约 10 秒，经过多轮人工标注。数据集以“动作类别数”区分不同版本，常用的有 Kinetics‑400、Kinetics‑600、Kinetics‑700。它们在视频数量、类别覆盖和研究价值上逐步扩展，已成为视频理解、时空特征学习、跨模态研究等领域的标准基准。

1. Kinetics‑600

项目	内容
发布年份	2018 年（作为 Kinetics‑400 的扩展）
动作类别	600 类（在 Kinetics‑400 基础上新增 200 类）
视频数量	约 500 000 条（训练/验证/测试合计），每类至少 600 条视频
每段时长	约 10 秒，均为单标签片段
来源	YouTube 视频 URL，均经过多轮人工验证
数据划分	训练集约 390 k，验证集约 30 k，测试集约 60 k（官方提供）
许可协议	CC BY 4.0（可自由使用、商业亦可，只需署名）
主要论文	“A Short Note about Kinetics‑600” (Carreira et al., 2018)
下载地址	https://www.deepmind.com/open-source/kinetics （官方页面提供 .tar/.zip 下载）
使用场景	视频动作分类、时空特征学习、跨模态（视频‑文本）对齐、视频生成基准等。许多最新模型（I3D、SlowFast、X3D、ViViT 等）均在该数据集上报告 Top‑1/Top‑5 准确率，以衡量时空建模能力

2. Kinetics‑700

项目	内容
发布年份	2019 年（在 Kinetics‑600 基础上进一步扩展）
动作类别	700 类（保留 600 类并新增 100 类）
视频数量	超过 650 000 条（比 Kinetics‑600 增长约 30%）
每段时长	同样约 10 秒，单标签
来源	YouTube 视频，采用与前代相同的多语言查询、候选匹配与人工验证流程
数据划分	官方提供训练/验证/测试划分，具体数量略有差异（约 500 k 训练，150 k 验证/测试）
许可协议	CC BY 4.0（同 Kinetics‑600）
主要论文	“A Short Note on the Kinetics‑700 Human Action Dataset” (Carreira et al., 2019)
下载地址	同 Kinetics 官方页面：https://www.deepmind.com/open-source/kinetics （可选择 700 版）
基准表现	使用 I3D 模型在 Kinetics‑700 上的 Top‑1 准确率约 58.7%（低于 600/400 版，说明难度提升）
研究价值	更丰富的动作语义、更多长尾类别，适合作为大规模预训练数据，提升在小数据集（UCF‑101、HMDB‑51、ActivityNet 等）上的迁移效果

3. 关键特征与使用建议

多语言采集：Kinetics‑600 引入葡萄牙语等多语言查询，提升了类别覆盖率；Kinetics‑700 继续沿用该策略，使得数据更具全球多样性。
单标签设计：每段视频只标注一个动作标签，虽然实际可能包含多动作，但单标签简化了评估并促使模型学习更强的时空辨识能力。
规模与计算需求：700 k+ 视频对存储和算力都有较高要求，常见做法是先在 Kinetics‑600/700 上进行预训练，再在目标任务上微调，以降低训练成本并提升效果。
跨模态扩展：VATEX、HowTo100M 等数据集在构建时直接复用了 Kinetics‑600 的视频片段，说明它在视频‑文本、视频‑音频等多模态研究中具有重要的桥梁作用。
下载与许可证：官方提供的下载链接均在 DeepMind 开源页面，采用 CC BY 4.0，使用时只需保留原始作者署名即可，无需额外授权。

4. 参考链接（官方与论文）

官方页面（统一入口）‍： https://www.deepmind.com/open-source/kinetics
Kinetics‑600 论文： https://arxiv.org/abs/1808.01340 （“A Short Note about Kinetics‑600”）
Kinetics‑700 论文： https://arxiv.org/abs/1907.06987 （“A Short Note on the Kinetics‑700 Human Action Dataset”）

小结
Kinetics‑600 与 Kinetics‑700 是目前视频动作识别领域最具影响力的两套基准。前者在保持高质量标注的同时将类别从 400 扩展到 600，视频总量约 50 万；后者进一步增加到 700 类、约 65 万视频，提升了长尾动作的覆盖度和整体难度。两者均采用 CC BY 4.0 许可，下载渠道统一，已被广泛用于模型预训练、跨模态对齐以及新算法的评估基准。研究者可根据算力与任务需求选择合适的版本进行实验。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是Kinetics系列数据集

1. Kinetics‑600

2. Kinetics‑700

3. 关键特征与使用建议

4. 参考链接（官方与论文）

什么是HMDB‑51数据集

什么是时空特征（Spatio‑temporal Features）