什么是MPII Cooking 2 数据集

MPII Cooking 2 数据集概览

1. 背景与定位
MPII Cooking 2 是由德国马普信息学研究所(Max Planck Institute for Informatics)在原 MPII Cooking 系列基础上扩展而来的细粒度烹饪活动数据集,旨在为动作识别、复合活动理解、手部特征与姿态估计等研究提供大规模、真实的多模态视频材料。

2. 数据规模与基本属性

  • 视频数量:273 条,覆盖 30 位不同的受试者。
  • 总时长:超过 27 小时,单段长度从约 40 秒到 40 分钟不等。
  • 帧数:约 2 881 616 帧,分辨率约 1624 × 1224(或 1226 × 1224)像素,帧率 30 fps。
  • 菜品与动作:包含 59 道菜(14 种复杂菜 + 45 种简短复合菜),标注 67 种细粒度动作以及 87 种活动标签。
  • 属性与实例:共 222 种属性,产生 54 774 条属性实例,分布在 14 105 个时间段中。

3. 标注信息

  • 人体姿态:提供全身关节坐标,配套手部检测(左/右手)。
  • 对象与交互:每个动作标注四元组(手、主体物体、动作、受体物体),如(右手,刀,切,橙子)。
  • 脚本数据:为每个复合活动提供文字说明,便于跨模态检索与语言理解。
  • 分割与时间标签:细粒度动作的起止时间已标注,支持动作分割与预测任务。

4. 常用研究任务与基准划分

任务 说明
细粒度动作识别 识别单个烹饪步骤(如切、搅拌)
复合活动识别 识别完整菜谱或组合动作序列
手部特征与姿态估计 利用手部检测提升动作辨识
跨模态检索 视频 ↔ 语音/文本检索
机器人指令生成 将视频中的四元组转化为可执行指令

数据集官方提供了 train / val / test 三划分:201 条训练、17 条验证、42 条测试,确保不同受试者之间不交叉。

5. 获取方式与使用注意

  • 官方下载页面位于 MPII 数据集服务器(如 http://datasets.d2.mpi-inf.mpg.de/andriluka14cvpr/ ),其中包含压缩包 mpii_cooking2.tar.gz(约 11.8 GB)。
  • 视频均为单视角(天花板挂摄),仅提供 RGB 信息,若需深度或多视角需自行补充。
  • 由于文件体积较大,建议使用断点续传(wget -c)进行下载。

6. 参考文献(原始论文与重要工作)

  • Rohrbach 等,Recognizing Fine‑Grained and Composite Activities Using Hand‑Centric Features and Script DataCVPR 2015。
  • Andriluka 等,MPII Cooking 2: A Large‑Scale Dataset for Fine‑Grained Activity Recognition,2016(arXiv)。
  • 其他使用该数据集的典型工作包括视频‑语音检索、机器人指令生成等,均可在相应论文的实验章节中找到详细评测。

小结:MPII Cooking 2 以其丰富的菜品、细粒度动作标注以及完整的姿态、手部与对象交互信息,成为烹饪活动研究的标杆数据集。它不仅支持传统的动作识别,还为跨模态、语言理解以及机器人学习提供了宝贵的真实场景素材。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!