项目 | 关键信息 | 参考来源 |
---|---|---|
创建机构 | MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) 与 IBM Watson AI Lab 合作 | |
发布时间 | 2018 年正式发布,后续持续更新 | |
规模 | 超过 1 000 000 条 3 秒短视频 | |
类别 | 339 个动词标签(从 VerbNet 中挑选的 4 500 个常用动词经聚类后得到) 每类平均约 1 757 条视频,最高可达 2 775 条 |
|
视频时长 | 固定 3 秒,旨在捕捉瞬时动态事件 | |
主体 | 人、动物、物体以及自然现象,标签不局限于人类动作 | |
模态 | 同时提供 视觉 与 音频 信息,部分类别依赖声音(如拍手) | |
来源 | 多平台爬取(YouTube、Vimeo、GIPHY 等),随机截取 3 秒片段 | |
标注方式 | 通过 Amazon Mechanical Turk 众包,多轮验证确保标签质量 | |
主要目标 | 为 AI 提供大规模、覆盖面广的 动作/事件理解 基准,推动视频理解、跨模态学习、抽象推理等研究 | |
基准任务 | 视频分类(单模态或多模态),已提供多种基线模型(Spatial‑Temporal、Auditory、TSN、TRN 等) | |
关联赛事 | 参加 ActivityNet Challenge 2018 的视频动作识别任务 | |
衍生数据 | Audiovisual Moments in Time (AVMIT):在 Zenodo 上提供音视频特征与标注,适用于多模态研究 | |
官方网站 | <http://moments.csail.mit.edu >(提供数据集概览、下载申请表、基线代码) | |
论文 | Moments in Time Dataset: One Million Videos for Event Understanding,IEEE TPAMI 2019(也可在 arXiv 获取) | |
获取方式 | 访问官网填写申请表,获批后通过邮件获取下载链接;AVMIT 可直接从 Zenodo 下载 |
详细说明
- 数据集设计初衷
- 动词词表构建
- 视频采集与切分
- 从十余个公开视频平台抓取原始素材,随机截取 3 秒片段,确保每段视频能够完整呈现一个动作或事件。这样既降低了标注难度,又保证了动作的完整性。
- 标注流程
- 使用 Amazon Mechanical Turk 进行众包标注,每段视频至少由多位标注者判断是否包含目标动词。通过交叉验证和质量控制,过滤噪声并生成高可信度的标签。
- 多模态特性
- 除了视觉帧,数据集还保留原始音频轨道。约 30% 的类别对声音信息敏感(如拍手、鼓声),为 音视频联合学习 提供了天然实验平台。
- 基准与评估
- 获取与使用
- 访问官网填写申请表后,数据管理员会通过邮件发送下载链接。数据以 .mp4(视频)和 .wav(音频)形式提供,配套有 train/val/test 划分文件和标签 CSV。AVMIT 版本的特征文件已在 Zenodo 公布,便于直接加载进行实验。
相关链接一览
- 官方网站 & 下载入口:<http://moments.csail.mit.edu >
- 原始论文(IEEE TPAMI):<https://doi.org/10.1109/TPAMI.2019.2901464 >
- arXiv 预印本(可直接获取 PDF):<https://arxiv.org/abs/1803.06585 >
- AVMIT(音视频特征):<https://zenodo.org/record/8253350 >
- GitHub 基线代码(TSN、TRN 等实现):<https://github.com/IBM/moments-in-time >
通过上述资源,研究者可以快速上手 Moments in Time 数据集,开展视频动作识别、跨模态学习、迁移学习等前沿课题。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!
热门文章
761
615
172