什么是ActivityNet数据集

ActivityNet数据集概览

项目 内容 说明
定位 大规模视频行为理解基准 用于动作分类、时序动作定位、视频字幕生成、视频问答等任务
官方主页 http://activity-net.org 提供数据下载、评测服务器、论文链接等
核心论文 “A Large‑Scale Video Benchmark for Human Activity Understanding”,CVPR 2016,IEEE Xplore DOI 10.1109/CVPR.2016.90
数据规模(v1.3) 19 994 条未裁剪视频,覆盖 200 + 3 个活动类别(共 203 类),总时长约 849 小时,平均每段视频 5–10 分钟,约 1.41 个活动实例/视频
版本演进 v1.2:100 类、4 819 条训练视频等
v1.3:200 类、19 994 条未裁剪视频(2:1:1 划分训练/验证/测试)
v2.0(后续发布)在原有基础上加入更细粒度标注和跨模态信息
标注形式 JSON 文件记录每段视频的时间边界、活动标签;部分子集提供文字描述(Captions)或问答对(QA)
主要任务 1. 未裁剪视频分类(Untrimmed Video Classification)
2. 时序动作定位(Temporal Action Localization)
3. 视频字幕生成(Dense Video Captioning)
4. 视频问答(Video Question Answering)
5. 实体检测ActivityNet‑Entities)
数据集 ActivityNet Captions:约 20 000 条视频,100 000 条句子描述,平均每段视频 1.41 条时间标注的字幕
ActivityNet‑QA:约 58 000 条问答对,针对 5 800 条视频的复杂推理评测
ActivityNet‑Entities:在 Captions 基础上额外标注 158 k 个边界框,关联名词短语
获取方式 1. 访问官方主页 → “Download” 页面获取原始视频链接(YouTube)和标注文件(JSON)
2. 通过 Papers With Code(https://paperswithcode.com/dataset/activitynet )可直接下载已处理好的特征或切分文件
3. 部分子集(Captions、QA、Entities)在对应的 GitHub / 机构数据仓库提供下载链接(如 https://github.com/activitynet )
评测平台 官方提供在线评测服务器,提交 JSON 结果即可获得 mAP、Top‑1/Top‑5 等指标;支持多任务统一评测
研究热点 - 多模态学习(视频+文本)
- 零样本/跨域动作检测
- 长时序推理与弱监督定位
- 大模型预训练在视频理解中的迁移效果

关键链接汇总

使用提示:下载数据前请阅读并遵守数据使用协议(多数为非商业、学术研究用途),并在论文或项目中引用官方论文及数据集主页。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!