什么是动作识别数据集，常见动作识别数据集及相关链接介绍

AI解读 5个月前硕雀

87 0 0

一、什么是动作识别数据集
动作识别（Action Recognition）旨在让机器从视频序列中自动判断并分类人类或物体的动作。为实现这一目标，需要大量标注好的视频片段，提供时空信息、动作标签以及（可选的）额外属性（如光流、骨架关键点等）。这些专门用于训练、评估和对比算法的集合统称为动作识别数据集。它们是视频理解与生成研究的基石，也是衡量模型性能的“标准答案”。

二、常见动作识别数据集（按规模/年代划分）‍

数据集	动作类别数	视频片段数	主要特点	公开链接
KTH	6	2 391	早期基准，固定摄像头、简洁背景，适合算法原型验证。	https://doi.org/10.18653/v1/P17-2011
Weizmann	10	90	静态摄像头、干净背景，动作短小，常用于姿态/骨架研究。	https://www.cnblogs.com/picassooo/p/13451082.html
HMDB‑51	51	6 849	来自电影、YouTube 等多源，动作多样，难度适中。	https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
UCF‑50 / UCF‑101	50 / 101	13 320（UCF‑101）	YouTube 实际场景，包含体育、舞蹈、日常等，标注完整，是最广泛使用的通用基准。	https://www.bilibili.com/read/cv31810532/
UCF‑Sports	10	150	侧重体育动作，适合运动分析。	https://www.dilitanxianjia.com/14187/
ActivityNet	200	20 000+（片段）	长视频事件检测与动作识别兼顾，提供时间标注。	https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
Charades	157	9 848	室内日常活动，包含多人物交互，标注细粒度动作+对象。	https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
Kinetics‑400 / 600 / 700	400 / 600 / 700	240 000‑650 000	大规模 YouTube 视频，类别覆盖广，接近 ImageNet 规模，是深度模型预训练的首选。	https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
Something‑Something V1 / V2	174	108 499（V1） / 220 847（V2）	关注“原子动作”，强调时序关系，适合细粒度动作理解。	https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
AVA (Atomic Visual Actions)	80	740 000+（标注帧）	对 15 分钟视频进行密集帧级标注，提供动作与时间的细粒度对应。	https://tc.ccf.org.cn/ccf/file/download?ID=695774
Moments in Time	339	1 000 000+	关注“一秒钟内的动作”，覆盖日常、自然、体育等多场景。	https://www.cnblogs.com/nowgood/p/actionrecognition.html
Sports‑1M	487	1 000 000+	以体育为主的大规模数据，类别层次化（运动→子类），适合细粒度体育动作识别。	https://cs.hit.edu.cn/_upload/article/files/0c/f5/5fc7824a42d8a0ddb5c38951e92f/191565a3-9d39-4105-a34d-3e424cda80c4.pdf
SoccerNet‑V2	17（动作）	3 000+（比赛片段）	足球比赛专用，提供动作定位与镜头切分标注。	https://cs.hit.edu.cn/_upload/article/files/0c/f5/5fc7824a42d8a0ddb5c38951e92f/191565a3-9d39-4105-a34d-3e424cda80c4.pdf
AVA	80	740 K（帧）	密集帧级标注，强调原子动作与多人交互。	https://tc.ccf.org.cn/ccf/file/download?ID=695774
ActionHub	1 211	3 600 000+（描述）	零样本动作识别大规模视频描述数据集，提供文本-视频对齐。	https://doi.org/10.48550/arXiv.2401.11654
AAMAZ 人体动作识别数据集	未公开	未公开	新近发布，提供高质量视频片段，适合深度学习全流程实验。	https://blog.csdn.net/weixin_36364707/article/details/150510516

备注：以上数据集大多数均可通过官方主页或论文附带的下载链接获取。若需要具体下载地址，可在对应论文或项目页面进一步查找。

三、如何选择合适的数据集

研究目标：
- 基础动作分类 → KTH、Weizmann、HMDB‑51、UCF‑101。
- 细粒度或时序关系 → Something‑Something、AVA、Moments in Time。
- 大规模预训练 → Kinetics‑700、Sports‑1M、ActionHub。
- 特定场景（体育、监控）‍ → SoccerNet、Sports‑1M、Collective Activity 系列（群体动作）。
标注粒度：
- 视频级标签（UCF‑101、Kinetics）适合整体分类。
- 帧级或时序标注（AVA、Charades、ActivityNet）适合动作定位与检测。
模态需求：
- 光流/光谱 → 部分数据集提供光流文件（如 UCF‑101 官方光流版）。
- 骨架/深度 → MSR‑Action3D、NTU RGB‑D、UCF‑Kinect 等。

四、获取与使用建议

大多数公开数据集在 GitHub、Google Drive、官方项目页面 提供下载，下载前请阅读使用协议。
为避免版权争议，建议使用 学术用途 或 已明确授权 的数据。
在实验报告或论文中，请务必注明数据集名称、版本号以及对应的引用链接（如上表所示），以保证可复现性。

动作识别数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是动作识别数据集，常见动作识别数据集及相关链接介绍

什么是NTU‑RGBD数据集

什么是MERL Shopping数据集