什么是动作识别数据集,常见动作识别数据集及相关链接介绍

一、什么是动作识别数据集
动作识别(Action Recognition)旨在让机器从视频序列中自动判断并分类人类或物体的动作。为实现这一目标,需要大量标注好的视频片段,提供时空信息、动作标签以及(可选的)额外属性(如光流、骨架关键点等)。这些专门用于训练、评估和对比算法的集合统称为动作识别数据集。它们是视频理解与生成研究的基石,也是衡量模型性能的“标准答案”。


二、常见动作识别数据集(按规模/年代划分)

数据集 动作类别数 视频片段数 主要特点 公开链接
KTH 6 2 391 早期基准,固定摄像头、简洁背景,适合算法原型验证。 https://doi.org/10.18653/v1/P17-2011
Weizmann 10 90 静态摄像头、干净背景,动作短小,常用于姿态/骨架研究。 https://www.cnblogs.com/picassooo/p/13451082.html
HMDB‑51 51 6 849 来自电影、YouTube 等多源,动作多样,难度适中。 https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
UCF‑50 / UCF‑101 50 / 101 13 320(UCF‑101) YouTube 实际场景,包含体育、舞蹈、日常等,标注完整,是最广泛使用的通用基准。 https://www.bilibili.com/read/cv31810532/
UCF‑Sports 10 150 侧重体育动作,适合运动分析。 https://www.dilitanxianjia.com/14187/
ActivityNet 200 20 000+(片段) 长视频事件检测与动作识别兼顾,提供时间标注。 https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
Charades 157 9 848 室内日常活动,包含多人物交互,标注细粒度动作+对象。 https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
Kinetics‑400 / 600 / 700 400 / 600 / 700 240 000‑650 000 大规模 YouTube 视频,类别覆盖广,接近 ImageNet 规模,是深度模型预训练的首选。 https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
Something‑Something V1 / V2 174 108 499(V1) / 220 847(V2) 关注“原子动作”,强调时序关系,适合细粒度动作理解。 https://tc.ccf.org.cn/upload/resources/file/2022/10/09/214860.pdf
AVA (Atomic Visual Actions) 80 740 000+(标注帧) 对 15 分钟视频进行密集帧级标注,提供动作与时间的细粒度对应。 https://tc.ccf.org.cn/ccf/file/download?ID=695774
Moments in Time 339 1 000 000+ 关注“一秒钟内的动作”,覆盖日常、自然、体育等多场景。 https://www.cnblogs.com/nowgood/p/actionrecognition.html
Sports‑1M 487 1 000 000+ 以体育为主的大规模数据,类别层次化(运动→子类),适合细粒度体育动作识别。 https://cs.hit.edu.cn/_upload/article/files/0c/f5/5fc7824a42d8a0ddb5c38951e92f/191565a3-9d39-4105-a34d-3e424cda80c4.pdf
SoccerNet‑V2 17(动作) 3 000+(比赛片段) 足球比赛专用,提供动作定位与镜头切分标注。 https://cs.hit.edu.cn/_upload/article/files/0c/f5/5fc7824a42d8a0ddb5c38951e92f/191565a3-9d39-4105-a34d-3e424cda80c4.pdf
AVA 80 740 K(帧) 密集帧级标注,强调原子动作与多人交互。 https://tc.ccf.org.cn/ccf/file/download?ID=695774
ActionHub 1 211 3 600 000+(描述) 零样本动作识别大规模视频描述数据集,提供文本-视频对齐。 https://doi.org/10.48550/arXiv.2401.11654
AAMAZ 人体动作识别数据集 未公开 未公开 新近发布,提供高质量视频片段,适合深度学习全流程实验。 https://blog.csdn.net/weixin_36364707/article/details/150510516

备注:以上数据集大多数均可通过官方主页或论文附带的下载链接获取。若需要具体下载地址,可在对应论文或项目页面进一步查找。


三、如何选择合适的数据集

  1. 研究目标
    • 基础动作分类 → KTH、Weizmann、HMDB‑51、UCF‑101。
    • 细粒度或时序关系 → Something‑Something、AVA、Moments in Time。
    • 大规模预训练 → Kinetics‑700、Sports‑1M、ActionHub。
    • 特定场景(体育、监控)‍ → SoccerNet、Sports‑1M、Collective Activity 系列(群体动作)。
  2. 标注粒度
    • 视频级标签(UCF‑101、Kinetics)适合整体分类。
    • 帧级或时序标注(AVA、Charades、ActivityNet)适合动作定位与检测。
  3. 模态需求
    • 光流/光谱 → 部分数据集提供光流文件(如 UCF‑101 官方光流版)。
    • 骨架/深度 → MSR‑Action3D、NTU RGB‑D、UCF‑Kinect 等。

四、获取与使用建议

  • 大多数公开数据集在 GitHub、Google Drive、官方项目页面 提供下载,下载前请阅读使用协议。
  • 为避免版权争议,建议使用 学术用途 或 已明确授权 的数据。
  • 在实验报告或论文中,请务必注明数据集名称、版本号以及对应的引用链接(如上表所示),以保证可复现性。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!