1. 数据集概述
50Salads 是一个面向厨房操作的多模态视频数据集,最初由 Dundee 大学的 Sebastian Stein 与 Stephen J. McKenna 在 2013 年的 UbiComp 会议上发布。它专注于 食物准备活动,为研究者提供了真实的、细粒度的动作序列,用于动作分割、活动识别、传感器融合等任务。
2. 数据规模与组成
- 视频数量:50 条长视频(每位参与者准备两份混合沙拉)。
- 参与者:25 位不同的志愿者,每人拍摄两段视频。
- 总时长:约 4.5 小时,平均每段视频 6.4 分钟。
- 动作实例:每段视频约 20 个动作实例,细分为 17 种细粒度动作(如 “cut tomato”、 “peel cucumber” 等)。
- 片段数:共计 899 个动作片段。
3. 采集方式与模态
- RGB‑D 视频:640 × 480 像素,30 Hz,提供彩色帧与对应深度图。
- 加速度计:在刀具、搅拌勺、玻璃杯、油瓶、胡椒瓶等厨房用具上安装 3‑轴加速度计,记录 4.5 h 的同步运动数据。
- 同步标注:所有模态均经过时间对齐,便于多模态融合研究。
4. 注释层级
- 细粒度动作标签:17 类细粒度动作,覆盖切、剥、混合、调味等操作。
- 阶段标签:每个动作标记为 pre(准备阶段)、core(核心操作)或 post(收尾阶段),并指明所涉及的食材。
- 层次结构:数据集同时提供高层次的活动类别(如 “salad preparation”)和低层次的细粒度动作,适合层次化行为理解研究。
5. 主要研究任务
任务 | 说明 |
---|---|
动作分割(Temporal Action Segmentation) | 依据帧级标签对长视频进行细粒度分段,是该数据集最常用的基准。 |
多模态活动识别 | 结合 RGB‑D 与加速度计信息,提高识别精度。 |
传感器融合与迁移学习 | 研究不同模态在特征层面或决策层面的融合策略。 |
进度追踪与预测 | 基于已观察的动作序列预测后续步骤或完成时间。 |
6. 获取方式与相关链接
- 官方主页(数据集说明、下载链接): https://cvip.computing.dundee.ac.uk/datasets/foodpreparation/50salads/
- PapersWithCode 页面(基准代码、论文列表): https://paperswithcode.com/dataset/50-salads
- 原始论文(UbiComp 2013): https://doi.org/10.1145/2493432.2493482
- 数据集下载(通过官方页面提供的链接):同官方主页中的 “Download” 区域,可直接获取 RGB‑D 视频、深度图和加速度计数据文件。
7. 使用建议
- 基准划分:数据集提供了标准的 5‑fold 交叉验证划分,推荐直接使用以便与已有文献对比。
- 预处理:由于深度图与加速度计采样率相同(30 Hz),可先对两者进行时间同步,再统一抽取特征。
- 评估指标:常用的指标包括帧级准确率(Acc)、编辑距离(Edit)以及不同阈值下的 F1‑score(F@0.1、F@0.25、F@0.5)。
8. 小结
50Salads 以其 多模态、细粒度、真实厨房场景 的特点,成为动作分割与多模态行为理解领域的经典基准。通过官方主页和 PapersWithCode 可以快速获取数据与最新的基准实现,适合作为新算法的评测平台或进行跨模态学习的实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!