什么是ActivityNet数据集

AI解读 2个月前硕雀

43 0 0

ActivityNet数据集概览

项目	内容	说明
定位	大规模视频行为理解基准	用于动作分类、时序动作定位、视频字幕生成、视频问答等任务
官方主页	http://activity-net.org	提供数据下载、评测服务器、论文链接等
核心论文	“A Large‑Scale Video Benchmark for Human Activity Understanding”，CVPR 2016，IEEE Xplore DOI 10.1109/CVPR.2016.90
数据规模（v1.3）‍	19 994 条未裁剪视频，覆盖 200 + 3 个活动类别（共 203 类），总时长约 849 小时，平均每段视频 5–10 分钟，约 1.41 个活动实例/视频
版本演进	- v1.2：100 类、4 819 条训练视频等 - v1.3：200 类、19 994 条未裁剪视频（2:1:1 划分训练/验证/测试） - v2.0（后续发布）在原有基础上加入更细粒度标注和跨模态信息
标注形式	JSON 文件记录每段视频的时间边界、活动标签；部分子集提供文字描述（Captions）或问答对（QA）
主要任务	1. 未裁剪视频分类（Untrimmed Video Classification） 2. 时序动作定位（Temporal Action Localization） 3. 视频字幕生成（Dense Video Captioning） 4. 视频问答（Video Question Answering） 5. 实体检测（ActivityNet‑Entities）
子数据集	- ActivityNet Captions：约 20 000 条视频，100 000 条句子描述，平均每段视频 1.41 条时间标注的字幕 - ActivityNet‑QA：约 58 000 条问答对，针对 5 800 条视频的复杂推理评测 - ActivityNet‑Entities：在 Captions 基础上额外标注 158 k 个边界框，关联名词短语
获取方式	1. 访问官方主页 → “Download” 页面获取原始视频链接（YouTube）和标注文件（JSON） 2. 通过 Papers With Code（https://paperswithcode.com/dataset/activitynet ）可直接下载已处理好的特征或切分文件 3. 部分子集（Captions、QA、Entities）在对应的 GitHub / 机构数据仓库提供下载链接（如 https://github.com/activitynet ）
评测平台	官方提供在线评测服务器，提交 JSON 结果即可获得 mAP、Top‑1/Top‑5 等指标；支持多任务统一评测
研究热点	- 多模态学习（视频+文本） - 零样本/跨域动作检测 - 长时序推理与弱监督定位 - 大模型预训练在视频理解中的迁移效果

关键链接汇总

官方主页 & 下载入口： http://activity-net.org
核心论文（PDF/IEEE）： https://ieeexplore.ieee.org/document/7298698
Papers With Code 数据页： https://paperswithcode.com/dataset/activitynet
ActivityNet Captions 数据集（TIB）： https://service.tib.eu/ldmservice/dataset/activitynet-captions
ActivityNet‑QA 项目仓库： https://github.com/MILVLG/activitynet-qa
ActivityNet‑Entities 介绍页： https://hyper.ai/datasets/19364

使用提示：下载数据前请阅读并遵守数据使用协议（多数为非商业、学术研究用途），并在论文或项目中引用官方论文及数据集主页。

ActivityNet ActivityNet数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！