1. 背景与定位
MPII Cooking 2 是由德国马普信息学研究所(Max Planck Institute for Informatics)在原 MPII Cooking 系列基础上扩展而来的细粒度烹饪活动数据集,旨在为动作识别、复合活动理解、手部特征与姿态估计等研究提供大规模、真实的多模态视频材料。
2. 数据规模与基本属性
- 视频数量:273 条,覆盖 30 位不同的受试者。
- 总时长:超过 27 小时,单段长度从约 40 秒到 40 分钟不等。
- 帧数:约 2 881 616 帧,分辨率约 1624 × 1224(或 1226 × 1224)像素,帧率 30 fps。
- 菜品与动作:包含 59 道菜(14 种复杂菜 + 45 种简短复合菜),标注 67 种细粒度动作以及 87 种活动标签。
- 属性与实例:共 222 种属性,产生 54 774 条属性实例,分布在 14 105 个时间段中。
3. 标注信息
- 人体姿态:提供全身关节坐标,配套手部检测(左/右手)。
- 对象与交互:每个动作标注四元组(手、主体物体、动作、受体物体),如(右手,刀,切,橙子)。
- 脚本数据:为每个复合活动提供文字说明,便于跨模态检索与语言理解。
- 分割与时间标签:细粒度动作的起止时间已标注,支持动作分割与预测任务。
4. 常用研究任务与基准划分
任务 | 说明 |
---|---|
细粒度动作识别 | 识别单个烹饪步骤(如切、搅拌) |
复合活动识别 | 识别完整菜谱或组合动作序列 |
手部特征与姿态估计 | 利用手部检测提升动作辨识 |
跨模态检索 | 视频 ↔ 语音/文本检索 |
机器人指令生成 | 将视频中的四元组转化为可执行指令 |
数据集官方提供了 train / val / test 三划分:201 条训练、17 条验证、42 条测试,确保不同受试者之间不交叉。
5. 获取方式与使用注意
- 官方下载页面位于 MPII 数据集服务器(如
http://datasets.d2.mpi-inf.mpg.de/andriluka14cvpr/
),其中包含压缩包mpii_cooking2.tar.gz
(约 11.8 GB)。 - 视频均为单视角(天花板挂摄),仅提供 RGB 信息,若需深度或多视角需自行补充。
- 由于文件体积较大,建议使用断点续传(
wget -c
)进行下载。
6. 参考文献(原始论文与重要工作)
- Rohrbach 等,Recognizing Fine‑Grained and Composite Activities Using Hand‑Centric Features and Script Data,CVPR 2015。
- Andriluka 等,MPII Cooking 2: A Large‑Scale Dataset for Fine‑Grained Activity Recognition,2016(arXiv)。
- 其他使用该数据集的典型工作包括视频‑语音检索、机器人指令生成等,均可在相应论文的实验章节中找到详细评测。
小结:MPII Cooking 2 以其丰富的菜品、细粒度动作标注以及完整的姿态、手部与对象交互信息,成为烹饪活动研究的标杆数据集。它不仅支持传统的动作识别,还为跨模态、语言理解以及机器人学习提供了宝贵的真实场景素材。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!