项目 | 内容 | 说明 |
---|---|---|
定位 | 大规模视频行为理解基准 | 用于动作分类、时序动作定位、视频字幕生成、视频问答等任务 |
官方主页 | http://activity-net.org | 提供数据下载、评测服务器、论文链接等 |
核心论文 | “A Large‑Scale Video Benchmark for Human Activity Understanding”,CVPR 2016,IEEE Xplore DOI 10.1109/CVPR.2016.90 | |
数据规模(v1.3) | 19 994 条未裁剪视频,覆盖 200 + 3 个活动类别(共 203 类),总时长约 849 小时,平均每段视频 5–10 分钟,约 1.41 个活动实例/视频 | |
版本演进 | - v1.2:100 类、4 819 条训练视频等 - v1.3:200 类、19 994 条未裁剪视频(2:1:1 划分训练/验证/测试) - v2.0(后续发布)在原有基础上加入更细粒度标注和跨模态信息 |
|
标注形式 | JSON 文件记录每段视频的时间边界、活动标签;部分子集提供文字描述(Captions)或问答对(QA) | |
主要任务 | 1. 未裁剪视频分类(Untrimmed Video Classification) 2. 时序动作定位(Temporal Action Localization) 3. 视频字幕生成(Dense Video Captioning) 4. 视频问答(Video Question Answering) 5. 实体检测(ActivityNet‑Entities) |
|
子数据集 | - ActivityNet Captions:约 20 000 条视频,100 000 条句子描述,平均每段视频 1.41 条时间标注的字幕 - ActivityNet‑QA:约 58 000 条问答对,针对 5 800 条视频的复杂推理评测 - ActivityNet‑Entities:在 Captions 基础上额外标注 158 k 个边界框,关联名词短语 |
|
获取方式 | 1. 访问官方主页 → “Download” 页面获取原始视频链接(YouTube)和标注文件(JSON) 2. 通过 Papers With Code(https://paperswithcode.com/dataset/activitynet )可直接下载已处理好的特征或切分文件 3. 部分子集(Captions、QA、Entities)在对应的 GitHub / 机构数据仓库提供下载链接(如 https://github.com/activitynet ) |
|
评测平台 | 官方提供在线评测服务器,提交 JSON 结果即可获得 mAP、Top‑1/Top‑5 等指标;支持多任务统一评测 | |
研究热点 | - 多模态学习(视频+文本) - 零样本/跨域动作检测 - 长时序推理与弱监督定位 - 大模型预训练在视频理解中的迁移效果 |
关键链接汇总
- 官方主页 & 下载入口: http://activity-net.org
- 核心论文(PDF/IEEE): https://ieeexplore.ieee.org/document/7298698
- Papers With Code 数据页: https://paperswithcode.com/dataset/activitynet
- ActivityNet Captions 数据集(TIB): https://service.tib.eu/ldmservice/dataset/activitynet-captions
- ActivityNet‑QA 项目仓库: https://github.com/MILVLG/activitynet-qa
- ActivityNet‑Entities 介绍页: https://hyper.ai/datasets/19364
使用提示:下载数据前请阅读并遵守数据使用协议(多数为非商业、学术研究用途),并在论文或项目中引用官方论文及数据集主页。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!