什么是Sports1M数据集

AI解读 2小时前 硕雀
3 0

Sports1M 数据集概览

项目 内容 说明
发布年份 2014 年 由 Google 与斯坦福大学合作发布
数据来源 YouTube 视频 通过 YouTube Topics API 抓取公开视频链接
规模 约 1,133,158 条视频(约 110 万+)
总时长 > 5,000 小时
每条视频平均时长约 5 分钟以上
类别 487 种体育运动
分为 6 大类(水上、团队、冬季、球类、对抗、动物相关)
每类包含 1,000–3,000 条视频,约 5% 视频拥有多标签
标注方式 自动标签
基于视频标题、描述等元数据的文本分析
标签噪声较大,标签仅在视频整体层面标注,未提供动作出现的时间段
挑战 视频长度长、相机运动自由、压缩伪影等导致光流等特征不稳定 对深度网络训练提出了较高的鲁棒性要求
主要用途 大规模视频分类、动作识别深度学习模型预训练、跨模态研究等 已成为视频理解领域的基准数据集之一

1. 数据集简介

Sports1M 是首个 大规模体育视频 数据集,旨在解决当时视频分类数据量不足的问题。它收录了来自 YouTube 的公开体育视频,覆盖了 487 种细粒度运动类别,提供了 超过 110 万 条视频链接,累计时长超过 5,000 小时。由于标签是通过自动化方式生成,数据集在规模上具有优势,但标签噪声也相对较高,这为后续的噪声鲁棒学习提供了实验平台。

2. 类别层次结构

  • 顶层 6 大类:水上运动、团队运动、冬季运动、球类运动、对抗运动、动物相关运动
  • 细粒度子类:如“台球‑八球”“台球‑九球”“保龄球‑标准保龄”等,每个细类拥有约 1,000–3,000 条视频。

3. 标注与质量

  • 自动标注:利用 YouTube Topics API 对视频的标题、描述等文本元数据进行关键词匹配,生成 487 类标签。
  • 噪声特征:约 5% 视频带有多标签,标签准确率受限于文本匹配的可靠性,且标签仅在视频整体层面提供,缺乏时序定位信息。
  • 研究价值:噪声标签为研究 监督学习噪声鲁棒训练 提供了真实场景的测试基准。

4. 下载与获取方式

资源 链接 说明
官方主页 https://cs.stanford.edu/people/karpathy/deepvideo/ 项目介绍、论文、下载说明
GitHub 镜像 https://github.com/gtoderici/sports-1m-dataset/ 提供下载脚本、数据划分文件
原始论文 https://ieeexplore.ieee.org/document/6909619 “Large-Scale Video Classification with Convolutional Neural Networks” (CVPR 2014)
中文技术博客 https://www.selectdataset.com/dataset/2877e0af4c1315d1846ca13aec132178 数据集概览与下载入口
CSDN 综述 https://blog.csdn.net/hellolifei1985/article/details/143380244 详细介绍与使用经验

获取提示:数据集本身仅提供 YouTube 视频的 URL 列表,实际视频需自行从 YouTube 下载或使用提供的脚本进行批量抓取。由于部分视频已被删除,实际可用数量略低于 1.13M 条(约 7% 视频失效)。

5. 研究与应用

  • 基准测试:在视频分类、动作识别、跨模态检索等任务中常作为大规模基准,与 UCF101、HMDB51 等小规模数据集形成互补。
  • 模型预训练:许多后续工作(如 3D CNN、双流网络、Transformer‑based 视频模型)在 Sports1M 上进行预训练,再迁移到更细粒度的数据集上提升性能。
  • 噪声学习:由于标签噪声,Sports1M 成为研究 弱标签学习、噪声校正、半监督学习 的重要实验平台。

6. 使用注意事项

  1. 版权与使用:数据来源于公开的 YouTube 视频,使用时需遵守 YouTube 的使用政策。
  2. 标签噪声:建议在模型训练时加入噪声鲁棒技术(如标签平滑、噪声过滤)以提升效果。
  3. 视频失效:约 5–7% 视频已被删除,实际可用数据略低于官方声明的数量。
  4. 存储需求:完整下载后约需 数百 TB 的存储空间,通常研究者只下载所需子集或使用 URL 列表进行在线实验。

总结
Sports1M 是目前公开的最大体育视频数据集之一,提供了 1.1M+ 条 YouTube 视频链接,覆盖 487 类细粒度运动,标注方式为自动生成的弱标签。它在推动大规模视频理解、噪声学习以及跨模态研究方面发挥了重要作用。通过官方主页、GitHub 镜像以及论文链接,研究者可以获取数据列表并结合自己的下载脚本进行实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!