项目 | 内容 | 说明 |
---|---|---|
发布年份 | 2014 年 | 由 Google 与斯坦福大学合作发布 |
数据来源 | YouTube 视频 | 通过 YouTube Topics API 抓取公开视频链接 |
规模 | 约 1,133,158 条视频(约 110 万+) 总时长 > 5,000 小时 |
每条视频平均时长约 5 分钟以上 |
类别 | 487 种体育运动 分为 6 大类(水上、团队、冬季、球类、对抗、动物相关) |
每类包含 1,000–3,000 条视频,约 5% 视频拥有多标签 |
标注方式 | 自动标签 基于视频标题、描述等元数据的文本分析 |
标签噪声较大,标签仅在视频整体层面标注,未提供动作出现的时间段 |
挑战 | 视频长度长、相机运动自由、压缩伪影等导致光流等特征不稳定 | 对深度网络训练提出了较高的鲁棒性要求 |
主要用途 | 大规模视频分类、动作识别、深度学习模型预训练、跨模态研究等 | 已成为视频理解领域的基准数据集之一 |
1. 数据集简介
Sports1M 是首个 大规模体育视频 数据集,旨在解决当时视频分类数据量不足的问题。它收录了来自 YouTube 的公开体育视频,覆盖了 487 种细粒度运动类别,提供了 超过 110 万 条视频链接,累计时长超过 5,000 小时。由于标签是通过自动化方式生成,数据集在规模上具有优势,但标签噪声也相对较高,这为后续的噪声鲁棒学习提供了实验平台。
2. 类别层次结构
- 顶层 6 大类:水上运动、团队运动、冬季运动、球类运动、对抗运动、动物相关运动
- 细粒度子类:如“台球‑八球”“台球‑九球”“保龄球‑标准保龄”等,每个细类拥有约 1,000–3,000 条视频。
3. 标注与质量
- 自动标注:利用 YouTube Topics API 对视频的标题、描述等文本元数据进行关键词匹配,生成 487 类标签。
- 噪声特征:约 5% 视频带有多标签,标签准确率受限于文本匹配的可靠性,且标签仅在视频整体层面提供,缺乏时序定位信息。
- 研究价值:噪声标签为研究 弱监督学习、噪声鲁棒训练 提供了真实场景的测试基准。
4. 下载与获取方式
资源 | 链接 | 说明 |
---|---|---|
官方主页 | https://cs.stanford.edu/people/karpathy/deepvideo/ | 项目介绍、论文、下载说明 |
GitHub 镜像 | https://github.com/gtoderici/sports-1m-dataset/ | 提供下载脚本、数据划分文件 |
原始论文 | https://ieeexplore.ieee.org/document/6909619 | “Large-Scale Video Classification with Convolutional Neural Networks” (CVPR 2014) |
中文技术博客 | https://www.selectdataset.com/dataset/2877e0af4c1315d1846ca13aec132178 | 数据集概览与下载入口 |
CSDN 综述 | https://blog.csdn.net/hellolifei1985/article/details/143380244 | 详细介绍与使用经验 |
获取提示:数据集本身仅提供 YouTube 视频的 URL 列表,实际视频需自行从 YouTube 下载或使用提供的脚本进行批量抓取。由于部分视频已被删除,实际可用数量略低于 1.13M 条(约 7% 视频失效)。
5. 研究与应用
- 基准测试:在视频分类、动作识别、跨模态检索等任务中常作为大规模基准,与 UCF101、HMDB51 等小规模数据集形成互补。
- 模型预训练:许多后续工作(如 3D CNN、双流网络、Transformer‑based 视频模型)在 Sports1M 上进行预训练,再迁移到更细粒度的数据集上提升性能。
- 噪声学习:由于标签噪声,Sports1M 成为研究 弱标签学习、噪声校正、半监督学习 的重要实验平台。
6. 使用注意事项
- 版权与使用:数据来源于公开的 YouTube 视频,使用时需遵守 YouTube 的使用政策。
- 标签噪声:建议在模型训练时加入噪声鲁棒技术(如标签平滑、噪声过滤)以提升效果。
- 视频失效:约 5–7% 视频已被删除,实际可用数据略低于官方声明的数量。
- 存储需求:完整下载后约需 数百 TB 的存储空间,通常研究者只下载所需子集或使用 URL 列表进行在线实验。
总结
Sports1M 是目前公开的最大体育视频数据集之一,提供了 1.1M+ 条 YouTube 视频链接,覆盖 487 类细粒度运动,标注方式为自动生成的弱标签。它在推动大规模视频理解、噪声学习以及跨模态研究方面发挥了重要作用。通过官方主页、GitHub 镜像以及论文链接,研究者可以获取数据列表并结合自己的下载脚本进行实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!