1. 背景与来源
MPII Cooking 系列数据集由德国马普信息学研究所(Max Planck Institute for Informatics, MPII)发布,旨在为细粒度烹饪活动识别、动作检测、姿态估计以及人机交互等研究提供真实、复杂的厨房场景视频。最早的版本是 MPII Cooking Activities,随后扩展为 MPII Cooking 2,两者在规模、标注深度和任务覆盖上都有显著提升。
2. 数据规模与内容
版本 | 视频数量 | 参与者 | 总时长 | 帧数 | 动作类别 | 关键统计 |
---|---|---|---|---|---|---|
MPII Cooking Activities(原始) | 44 | 12 | >8 小时 | 约 560 万帧 | 65 种细粒度烹饪动作 | 5 609 条动作标注,包含背景类 |
MPII Cooking 2(扩展) | 273 | 30 | >27 小时(2 881 616 帧) | 2 881 616 | 65 种动作(其中 87 个活动属性) | 273 段视频,覆盖 59 道菜,222 个属性实例,14 105 个时间段 |
- 动作类别:包括“洗手”“切菜”“倒入”“搅拌”“倒油”“烤箱操作”等日常烹饪行为。
- 菜谱多样性:MPII Cooking 2 包含 30 多种菜谱,且参与者可以自由选择步骤顺序,提升了数据的自然性和难度。
3. 注释与标注
- 时间段标注:每段视频均提供动作的起止时间戳,支持动作检测与时间定位任务。
- 姿态标注:原始数据集提供 2D 人体关键点(姿态)标注,便于姿态估计研究。
- 手‑物体四元组:在 MPII Cooking 2 上,研究者进一步标注了 (手, 主体物体, 动作, 受体物体) 四元组,以完整描述每一次交互,常用于机器人指令生成等应用。
- 属性与对象:共计 222 条属性(如“切碎”“加热”),对应 54 774 条属性实例,覆盖 14 105 个时间段。
4. 数据模态与采集方式
- 摄像头位置:摄像头固定在厨房天花板,俯视视角捕捉完整操作过程,分辨率约 1226 × 1224,帧率 24.4 fps。
- 仅 RGB:数据集主要提供 RGB 视频流,未包含深度信息;部分研究自行补充了深度或多视角数据,但官方版本为单视角 RGB。
- 同步传感:部分子集(如 MPII Cooking Composite)曾加入运动捕捉或 RFID 等传感器,但在公开的 MPII Cooking 2 中主要保留了视频与标注。
5. 常见研究任务与应用
任务 | 说明 | 典型引用 |
---|---|---|
细粒度动作识别 | 识别 65+ 类烹饪动作,评估长时序视频的辨识能力 | |
动作检测(Temporal Action Detection) | 在未裁剪的视频中定位动作起止时间段 | |
姿态估计 | 使用提供的 2D 关键点进行人体姿态恢复 | |
人机交互 / 机器人指令生成 | 将手‑物体四元组转化为机器人可执行的操作序列 | |
视频语言对齐(Temporal Grounding) | 将自然语言描述映射到对应的视频片段 | |
多模态学习 | 结合视觉、语言、姿态等多源信息进行统一建模 |
6. 获取方式与引用
- 官方下载页面:<https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/human-activity-recognition/mpii-cooking-2-dataset >(提供完整视频、标注文件及说明文档)。
- 推荐引用(原始论文):
- Rohrbach, M., Amin, S., Andriluka, M., & Schiele, B. (2012). MPII Cooking Activities Dataset.
- Rohrbach, M., et al. (2014). MPII Cooking 2 Dataset.
小结
MPII Cooking 系列是目前细粒度厨房活动研究中最具影响力的基准之一。它提供了大规模、自然顺序的烹饪视频,配套丰富的时间、姿态、手‑物体交互标注,支持从动作识别到机器人指令生成的多层次研究。研究者可以根据任务需求选择原始的 44 段视频或更大规模的 273 段 MPII Cooking 2,结合官方提供的标注进行实验与模型评估。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!