什么是UCF‑101数据集

AI解读 2个月前硕雀

44 0 0

项目	内容	说明
全称	UCF‑101 Action Recognition Dataset	由美国佛罗里达中央大学（University of Central Florida）发布
发布时间	2012 年	论文《Learning Spatiotemporal Features with 3D Convolutional Networks》首次提出
视频来源	YouTube 公开视频	所有 13 320 条剪辑均从 YouTube 下载，保证真实场景
视频数量	13 320 条	覆盖 101 种动作类别
类别数	101 类	分为 5 大类：人体‑物体交互、人体‑人体交互、身体运动、乐器演奏、体育运动
组别划分	25 组，每组 4‑7 条相关视频	同一组视频在背景、视角等方面有一定相似性
时长	超过 27 小时（平均每段约 7 秒）
帧率	25 FPS（固定）
分辨率	320 × 240（部分后期扩展至 360 × 288）
数据划分	3 种标准划分（Train/Test split 1/2/3），常用于交叉验证
主要挑战	相机运动、光照变化、背景杂乱、姿态多样等，使其成为动作识别领域最具挑战性的基准之一

1. 数据集结构与下载

下载渠道	链接	备注
官方网站（UCF CRCV）	https://www.crcv.ucf.edu/research/data-sets/ucf101/	提供原始视频、划分文件、特征文件（STIP、C3D 等）
天池平台（阿里云）	https://tianchi.aliyun.com/dataset/dataDetail?dataId=92158	国内镜像，需登录获取下载链接
GitHub 镜像	https://github.com/wangqingbaidu/CV-Datasets （列出下载链接）	便于通过脚本批量下载
其他公开镜像	如 https://github.com/Mind23-2/MindCode-68 中的目录结构说明	包含 `video/` 与 `split/` 子目录

使用提示：下载后，数据目录通常为 UCF101/video/（存放 .avi 视频）和 UCF101/split/（存放 trainlist0x.txt、testlist0x.txt），可直接用于 C3D、I3D、TSN 等模型的训练与评估。

2. 类别划分细节

大类	包含的动作示例
人体‑物体交互	抓取、投掷、使用工具、骑自行车等
人体‑人体交互	拳击、拥抱、握手、摔跤等
身体运动	跳跳绳、俯卧撑、爬行、刷牙等
乐器演奏	吉他、钢琴、鼓、笛子演奏
体育运动	足球、篮球、游泳、冲浪、举重等

每个大类下的具体动作在官方文档中列出，常见的 101 类包括 ApplyEyeMakeup、Archery、BabyCrawling、Basketball、PlayingViolin 等。

3. 常见研究与基准

基准评测：UCF‑101 与 HMDB‑51 常被用作视频动作识别的标准基准，报告的准确率（Average Accuracy）是衡量新模型性能的核心指标。
模型：3D‑CNN（C3D、I3D）、双流网络（Two‑Stream）、时空注意力网络、Transformer‑based 视频模型等均在该数据集上进行评估。
数据特性：由于视频在真实场景下拍摄，包含相机抖动、光照变化、背景干扰等，模型需要具备鲁棒的时空特征学习能力。

4. 参考文献与进一步阅读

UCF‑101 官方页面 – 包含数据集概述、下载链接、论文引用等。
论文: Learning Spatiotemporal Features with 3D Convolutional Networks (2012) – 首次提出 UCF‑101。
技术博客: “UCF101 数据集介绍” (CSDN) – 对类别、分组、下载方式的详细说明。
最新综述: “最全视频数据集分享系列一 | 动作识别数据集” – 汇总了 UCF‑101 的基本信息与下载地址。

5. 小结

UCF‑101 是目前动作识别领域最具影响力的公开基准之一，拥有 13 320 条来自 YouTube 的真实视频，覆盖 101 种日常与体育动作，分为 5 大类、25 组。其固定的 25 FPS、320 × 240 分辨率以及多样的拍摄条件，使其成为评估时空特征学习模型的“金标准”。通过官方站点、天池或 GitHub 镜像均可获取完整数据，配套的划分文件和特征文件进一步降低了实验准备成本。研究者在进行动作识别、视频生成、跨模态学习等任务时，常以 UCF‑101 为首选基准进行模型训练与对比。

UCF‑101 UCF‑101数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！