什么是MPII Cooking数据集

MPII Cooking 数据集概览


1. 背景与来源

MPII Cooking 系列数据集由德国马普信息学研究所(Max Planck Institute for Informatics, MPII)发布,旨在为细粒度烹饪活动识别、动作检测姿态估计以及人机交互等研究提供真实、复杂的厨房场景视频。最早的版本是 MPII Cooking Activities,随后扩展为 MPII Cooking 2,两者在规模、标注深度和任务覆盖上都有显著提升。


2. 数据规模与内容

版本 视频数量 参与者 总时长 帧数 动作类别 关键统计
MPII Cooking Activities(原始) 44 12 >8 小时 约 560 万帧 65 种细粒度烹饪动作 5 609 条动作标注,包含背景类
MPII Cooking 2(扩展) 273 30 >27 小时(2 881 616 帧) 2 881 616 65 种动作(其中 87 个活动属性) 273 段视频,覆盖 59 道菜,222 个属性实例,14 105 个时间段
  • 动作类别:包括“洗手”“切菜”“倒入”“搅拌”“倒油”“烤箱操作”等日常烹饪行为。
  • 菜谱多样性:MPII Cooking 2 包含 30 多种菜谱,且参与者可以自由选择步骤顺序,提升了数据的自然性和难度。

3. 注释与标注

  1. 时间段标注:每段视频均提供动作的起止时间戳,支持动作检测与时间定位任务。
  2. 姿态标注:原始数据集提供 2D 人体关键点(姿态)标注,便于姿态估计研究。
  3. 手‑物体四元组:在 MPII Cooking 2 上,研究者进一步标注了 (手, 主体物体, 动作, 受体物体) 四元组,以完整描述每一次交互,常用于机器人指令生成等应用。
  4. 属性与对象:共计 222 条属性(如“切碎”“加热”),对应 54 774 条属性实例,覆盖 14 105 个时间段。

4. 数据模态与采集方式

  • 摄像头位置:摄像头固定在厨房天花板,俯视视角捕捉完整操作过程,分辨率约 1226 × 1224,帧率 24.4 fps。
  • RGB:数据集主要提供 RGB 视频流,未包含深度信息;部分研究自行补充了深度或多视角数据,但官方版本为单视角 RGB。
  • 同步传感:部分子集(如 MPII Cooking Composite)曾加入运动捕捉或 RFID 等传感器,但在公开的 MPII Cooking 2 中主要保留了视频与标注。

5. 常见研究任务与应用

任务 说明 典型引用
细粒度动作识别 识别 65+ 类烹饪动作,评估长时序视频的辨识能力
动作检测(Temporal Action Detection 在未裁剪的视频中定位动作起止时间段
姿态估计 使用提供的 2D 关键点进行人体姿态恢复
人机交互 / 机器人指令生成 将手‑物体四元组转化为机器人可执行的操作序列
视频语言对齐(Temporal Grounding) 将自然语言描述映射到对应的视频片段
多模态学习 结合视觉、语言、姿态等多源信息进行统一建模

6. 获取方式与引用


小结
MPII Cooking 系列是目前细粒度厨房活动研究中最具影响力的基准之一。它提供了大规模、自然顺序的烹饪视频,配套丰富的时间、姿态、手‑物体交互标注,支持从动作识别到机器人指令生成的多层次研究。研究者可以根据任务需求选择原始的 44 段视频或更大规模的 273 段 MPII Cooking 2,结合官方提供的标注进行实验与模型评估

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!