什么是50Salads数据集

1. 数据集概述
50Salads 是一个面向厨房操作的多模态视频数据集,最初由 Dundee 大学的 Sebastian Stein 与 Stephen J. McKenna 在 2013 年的 UbiComp 会议上发布。它专注于 食物准备活动,为研究者提供了真实的、细粒度的动作序列,用于动作分割、活动识别、传感器融合等任务。

2. 数据规模与组成

  • 视频数量:50 条长视频(每位参与者准备两份混合沙拉)。
  • 参与者:25 位不同的志愿者,每人拍摄两段视频。
  • 总时长:约 4.5 小时,平均每段视频 6.4 分钟。
  • 动作实例:每段视频约 20 个动作实例,细分为 17 种细粒度动作(如 “cut tomato”、 “peel cucumber” 等)。
  • 片段数:共计 899 个动作片段。

3. 采集方式与模态

  • RGB‑D 视频:640 × 480 像素,30 Hz,提供彩色帧与对应深度图
  • 加速度计:在刀具、搅拌勺、玻璃杯、油瓶、胡椒瓶等厨房用具上安装 3‑轴加速度计,记录 4.5 h 的同步运动数据。
  • 同步标注:所有模态均经过时间对齐,便于多模态融合研究。

4. 注释层级

  • 细粒度动作标签:17 类细粒度动作,覆盖切、剥、混合、调味等操作。
  • 阶段标签:每个动作标记为 pre(准备阶段)、core(核心操作)或 post(收尾阶段),并指明所涉及的食材。
  • 层次结构:数据集同时提供高层次的活动类别(如 “salad preparation”)和低层次的细粒度动作,适合层次化行为理解研究。

5. 主要研究任务

任务 说明
动作分割(Temporal Action Segmentation 依据帧级标签对长视频进行细粒度分段,是该数据集最常用的基准。
多模态活动识别 结合 RGB‑D 与加速度计信息,提高识别精度。
传感器融合与迁移学习 研究不同模态在特征层面或决策层面的融合策略。
进度追踪与预测 基于已观察的动作序列预测后续步骤或完成时间。

6. 获取方式与相关链接

7. 使用建议

  • 基准划分:数据集提供了标准的 5‑fold 交叉验证划分,推荐直接使用以便与已有文献对比。
  • 预处理:由于深度图与加速度计采样率相同(30 Hz),可先对两者进行时间同步,再统一抽取特征。
  • 评估指标:常用的指标包括帧级准确率(Acc)、编辑距离(Edit)以及不同阈值下的 F1‑score(F@0.1、F@0.25、F@0.5)。

8. 小结
50Salads 以其 多模态、细粒度、真实厨房场景 的特点,成为动作分割与多模态行为理解领域的经典基准。通过官方主页和 PapersWithCode 可以快速获取数据与最新的基准实现,适合作为新算法的评测平台或进行跨模态学习的实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!