什么是Moments in Time数据集

AI解读 2小时前 硕雀
2 0

Moments in Time 数据集概览

项目 关键信息 参考来源
创建机构 MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) 与 IBM Watson AI Lab 合作
发布时间 2018 年正式发布,后续持续更新
规模 超过 1 000 000 条 3 秒短视频
类别 339 个动词标签(从 VerbNet 中挑选的 4 500 个常用动词经聚类后得到)
每类平均约 1 757 条视频,最高可达 2 775 条
视频时长 固定 3 秒,旨在捕捉瞬时动态事件
主体 人、动物、物体以及自然现象,标签不局限于人类动作
模态 同时提供 视觉 与 音频 信息,部分类别依赖声音(如拍手)
来源 多平台爬取(YouTube、Vimeo、GIPHY 等),随机截取 3 秒片段
标注方式 通过 Amazon Mechanical Turk 众包,多轮验证确保标签质量
主要目标 为 AI 提供大规模、覆盖面广的 动作/事件理解 基准,推动视频理解、跨模态学习、抽象推理等研究
基准任务 视频分类(单模态或多模态),已提供多种基线模型(Spatial‑Temporal、Auditory、TSN、TRN 等)
关联赛事 参加 ActivityNet Challenge 2018 的视频动作识别任务
衍生数据 Audiovisual Moments in Time (AVMIT):在 Zenodo 上提供音视频特征与标注,适用于多模态研究
官方网站 <http://moments.csail.mit.edu >(提供数据集概览、下载申请表、基线代码)
论文 Moments in Time Dataset: One Million Videos for Event Understanding,IEEE TPAMI 2019(也可在 arXiv 获取)
获取方式 访问官网填写申请表,获批后通过邮件获取下载链接;AVMIT 可直接从 Zenodo 下载

详细说明

  1. 数据集设计初衷
    • 传统图像数据集(如 ImageNet、Places)已推动静态视觉识别,而视频理解需要捕捉 空间‑时间‑音频 三维动态。Moments in Time 通过统一的 3 秒时长,提供了一个高覆盖、高密度、平衡的动作库,使模型能够学习从低层视觉特征到高层抽象概念的映射。
  2. 动词词表构建
    • 先从 VerbNet 中抽取 4 500 个最常用动词,利用 PropBank、FrameNet、OntoNotes 的特征进行二值化向量表示,再通过 k‑means 聚类得到语义上多样的动词集合,最终选出 339 个覆盖面最广的动词作为标签。
  3. 视频采集与切分
    • 从十余个公开视频平台抓取原始素材,随机截取 3 秒片段,确保每段视频能够完整呈现一个动作或事件。这样既降低了标注难度,又保证了动作的完整性。
  4. 标注流程
    • 使用 Amazon Mechanical Turk 进行众包标注,每段视频至少由多位标注者判断是否包含目标动词。通过交叉验证和质量控制,过滤噪声并生成高可信度的标签。
  5. 多模态特性
    • 除了视觉帧,数据集还保留原始音频轨道。约 30% 的类别对声音信息敏感(如拍手、鼓声),为 音视频联合学习 提供了天然实验平台。
  6. 基准与评估
    • 官方提供了多种基线模型的训练代码和评测结果,涵盖 空间(RGB‍、时间(光流‍、音频 三种模态的单独和融合表现。Top‑1/Top‑5 精度在公开验证集上分别达到约 20% / 40%(具体数值随模型而异)。
  7. 获取与使用
    • 访问官网填写申请表后,数据管理员会通过邮件发送下载链接。数据以 .mp4(视频)和 .wav(音频)形式提供,配套有 train/val/test 划分文件和标签 CSV。AVMIT 版本的特征文件已在 Zenodo 公布,便于直接加载进行实验。

相关链接一览

通过上述资源,研究者可以快速上手 Moments in Time 数据集,开展视频动作识别、跨模态学习、迁移学习等前沿课题。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!