什么是Moments in Time数据集

Moments in Time 数据集概览

项目	关键信息	参考来源
创建机构	MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) 与 IBM Watson AI Lab 合作
发布时间	2018 年正式发布，后续持续更新
规模	超过 1 000 000 条 3 秒短视频
类别	339 个动词标签（从 VerbNet 中挑选的 4 500 个常用动词经聚类后得到）每类平均约 1 757 条视频，最高可达 2 775 条
视频时长	固定 3 秒，旨在捕捉瞬时动态事件
主体	人、动物、物体以及自然现象，标签不局限于人类动作
模态	同时提供视觉与音频信息，部分类别依赖声音（如拍手）
来源	多平台爬取（YouTube、Vimeo、GIPHY 等），随机截取 3 秒片段
标注方式	通过 Amazon Mechanical Turk 众包，多轮验证确保标签质量
主要目标	为 AI 提供大规模、覆盖面广的动作/事件理解基准，推动视频理解、跨模态学习、抽象推理等研究
基准任务	视频分类（单模态或多模态），已提供多种基线模型（Spatial‑Temporal、Auditory、TSN、TRN 等）
关联赛事	参加 ActivityNet Challenge 2018 的视频动作识别任务
衍生数据	Audiovisual Moments in Time (AVMIT)：在 Zenodo 上提供音视频特征与标注，适用于多模态研究
官方网站	<http://moments.csail.mit.edu >（提供数据集概览、下载申请表、基线代码）
论文	Moments in Time Dataset: One Million Videos for Event Understanding，IEEE TPAMI 2019（也可在 arXiv 获取）
获取方式	访问官网填写申请表，获批后通过邮件获取下载链接；AVMIT 可直接从 Zenodo 下载

详细说明

数据集设计初衷
- 传统图像数据集（如 ImageNet、Places）已推动静态视觉识别，而视频理解需要捕捉 空间‑时间‑音频 三维动态。Moments in Time 通过统一的 3 秒时长，提供了一个高覆盖、高密度、平衡的动作库，使模型能够学习从低层视觉特征到高层抽象概念的映射。
动词词表构建
- 先从 VerbNet 中抽取 4 500 个最常用动词，利用 PropBank、FrameNet、OntoNotes 的特征进行二值化向量表示，再通过 k‑means 聚类得到语义上多样的动词集合，最终选出 339 个覆盖面最广的动词作为标签。
视频采集与切分
- 从十余个公开视频平台抓取原始素材，随机截取 3 秒片段，确保每段视频能够完整呈现一个动作或事件。这样既降低了标注难度，又保证了动作的完整性。
标注流程
- 使用 Amazon Mechanical Turk 进行众包标注，每段视频至少由多位标注者判断是否包含目标动词。通过交叉验证和质量控制，过滤噪声并生成高可信度的标签。
多模态特性
- 除了视觉帧，数据集还保留原始音频轨道。约 30% 的类别对声音信息敏感（如拍手、鼓声），为 音视频联合学习 提供了天然实验平台。
基准与评估
- 官方提供了多种基线模型的训练代码和评测结果，涵盖 空间（RGB）‍、时间（光流）‍、音频三种模态的单独和融合表现。Top‑1/Top‑5 精度在公开验证集上分别达到约 20% / 40%（具体数值随模型而异）。
获取与使用
- 访问官网填写申请表后，数据管理员会通过邮件发送下载链接。数据以 .mp4（视频）和 .wav（音频）形式提供，配套有 train/val/test 划分文件和标签 CSV。AVMIT 版本的特征文件已在 Zenodo 公布，便于直接加载进行实验。

什么是Moments in Time数据集

详细说明

相关链接一览

什么是Sports1M数据集

什么是FineGym数据集

什么是Moments in Time数据集

详细说明

相关链接一览

什么是Sports1M数据集

什么是FineGym数据集

什么是Moments in Time数据集