项目 | 内容 | 说明 |
---|---|---|
全称 | UCF‑101 Action Recognition Dataset | 由美国佛罗里达中央大学(University of Central Florida)发布 |
发布时间 | 2012 年 | 论文《Learning Spatiotemporal Features with 3D Convolutional Networks》首次提出 |
视频来源 | YouTube 公开视频 | 所有 13 320 条剪辑均从 YouTube 下载,保证真实场景 |
视频数量 | 13 320 条 | 覆盖 101 种动作类别 |
类别数 | 101 类 | 分为 5 大类:人体‑物体交互、人体‑人体交互、身体运动、乐器演奏、体育运动 |
组别划分 | 25 组,每组 4‑7 条相关视频 | 同一组视频在背景、视角等方面有一定相似性 |
时长 | 超过 27 小时(平均每段约 7 秒) | |
帧率 | 25 FPS(固定) | |
分辨率 | 320 × 240(部分后期扩展至 360 × 288) | |
数据划分 | 3 种标准划分(Train/Test split 1/2/3),常用于交叉验证 | |
主要挑战 | 相机运动、光照变化、背景杂乱、姿态多样等,使其成为动作识别领域最具挑战性的基准之一 |
1. 数据集结构与下载
下载渠道 | 链接 | 备注 |
---|---|---|
官方网站(UCF CRCV) | https://www.crcv.ucf.edu/research/data-sets/ucf101/ | 提供原始视频、划分文件、特征文件(STIP、C3D 等) |
天池平台(阿里云) | https://tianchi.aliyun.com/dataset/dataDetail?dataId=92158 | 国内镜像,需登录获取下载链接 |
GitHub 镜像 | https://github.com/wangqingbaidu/CV-Datasets (列出下载链接) | 便于通过脚本批量下载 |
其他公开镜像 | 如 https://github.com/Mind23-2/MindCode-68 中的目录结构说明 | 包含 video/ 与 split/ 子目录 |
使用提示:下载后,数据目录通常为
UCF101/video/
(存放 .avi 视频)和UCF101/split/
(存放trainlist0x.txt
、testlist0x.txt
),可直接用于 C3D、I3D、TSN 等模型的训练与评估。
2. 类别划分细节
大类 | 包含的动作示例 |
---|---|
人体‑物体交互 | 抓取、投掷、使用工具、骑自行车等 |
人体‑人体交互 | 拳击、拥抱、握手、摔跤等 |
身体运动 | 跳跳绳、俯卧撑、爬行、刷牙等 |
乐器演奏 | 吉他、钢琴、鼓、笛子演奏 |
体育运动 | 足球、篮球、游泳、冲浪、举重等 |
每个大类下的具体动作在官方文档中列出,常见的 101 类包括 ApplyEyeMakeup
、Archery
、BabyCrawling
、Basketball
、PlayingViolin
等。
3. 常见研究与基准
- 基准评测:UCF‑101 与 HMDB‑51 常被用作视频动作识别的标准基准,报告的准确率(Average Accuracy)是衡量新模型性能的核心指标。
- 模型:3D‑CNN(C3D、I3D)、双流网络(Two‑Stream)、时空注意力网络、Transformer‑based 视频模型等均在该数据集上进行评估。
- 数据特性:由于视频在真实场景下拍摄,包含相机抖动、光照变化、背景干扰等,模型需要具备鲁棒的时空特征学习能力。
4. 参考文献与进一步阅读
- UCF‑101 官方页面 – 包含数据集概述、下载链接、论文引用等。
- 论文: Learning Spatiotemporal Features with 3D Convolutional Networks (2012) – 首次提出 UCF‑101。
- 技术博客: “UCF101 数据集介绍” (CSDN) – 对类别、分组、下载方式的详细说明。
- 最新综述: “最全视频数据集分享系列一 | 动作识别数据集” – 汇总了 UCF‑101 的基本信息与下载地址。
5. 小结
UCF‑101 是目前动作识别领域最具影响力的公开基准之一,拥有 13 320 条来自 YouTube 的真实视频,覆盖 101 种日常与体育动作,分为 5 大类、25 组。其固定的 25 FPS、320 × 240 分辨率以及多样的拍摄条件,使其成为评估时空特征学习模型的“金标准”。通过官方站点、天池或 GitHub 镜像均可获取完整数据,配套的划分文件和特征文件进一步降低了实验准备成本。研究者在进行动作识别、视频生成、跨模态学习等任务时,常以 UCF‑101 为首选基准进行模型训练与对比。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!