什么是Breakfast Actions 数据集

Breakfast Actions 数据集概览

项目 内容 参考
数据来源 由 Hilde Kuehne、Arslan & Serre(ENS Paris)收集,面向厨房烹饪活动的细粒度视频数据。
参与者 52 位志愿者,在 18 套不同厨房环境中完成拍摄。
活动类别 10 种高层次烹饪任务(如冲咖啡、榨橙汁、做三明治等),进一步细分为 48 种原子动作(atomic actions)。
视频数量 约 1 712 条剪辑(部分文献记为 1 712 条,另有 1 718 条的统计),总时长约 66 小时,约 350 万帧。
摄像视角 每段视频使用 3–5 台固定摄像机同步录制,提供多视角信息,便于跨视角动作识别
标注形式 帧级动作标签(时间边界)以及对应的原子动作类别,支持 动作分割(temporal action segmentation)‍ 与 动作识别(action classification)‍ 两大任务。
常用划分 官方提供 4‑fold 交叉验证划分(train/val/test),每折约 428 条视频。多数论文直接使用该划分进行评估。
评估指标 - 帧级准确率(Frame‑wise Accuracy
- 编辑距离(Edit Score)
- F1@{10,25,50}(基于不同 IoU 阈值的 F1 分数)
下载链接 官方页面提供数据下载、说明文档以及基准代码:
https://serre‑lab.clips.brown.edu/resource/breakfast‑actions‑dataset
论文引用 原始论文:Cooking in the kitchen: Recognizing and Segmenting Human Activities in VideosCVPR 2014),作者 Hilde Kuehne, Juergen Gall, Thomas Serre。
常见基准模型 - Temporal Convolutional Networks (TCN)
- MS‑TCN、ED‑TCN、RNNHMM 等弱监督/全监督方法均在该数据集上报告显著提升。
应用场景 - 机器人厨房助理
- 智能家居行为监控
- 教学视频自动索引与检索
- 人机交互中的细粒度动作理解

关键特点与研究价值

  1. 细粒度动作分割:48 个原子动作提供了比传统动作识别更细致的时间结构,适合研究 长序列建模 与 跨动作边界检测
  2. 多视角同步:3–5 路摄像机为 跨视角对齐视角不变特征学习 提供了天然实验平台。
  3. 真实厨房环境:18 套厨房布局、不同光照与背景,使模型在 跨场景迁移 时更具挑战性。
  4. 标准划分与评估:官方 4‑fold 划分与统一指标(Acc、Edit、F1)保证了不同方法之间的 公平比较
  5. 广泛使用:自 2014 年发布以来,已成为 Temporal Action SegmentationWeakly‑Supervised LearningTemporal Convolutional Networks 等方向的基准数据集,超过 200 篇论文引用。

使用建议

  • 下载与准备:访问官方链接(上表),下载压缩包后解压,目录结构为 Breakfast/ → videos/annotations/
  • 加载示例(Python):
import os
import json
import cv2

data_root = '/path/to/Breakfast'
anno_path = os.path.join(data_root, 'annotations', 'breakfast_train.txt')
with open(anno_path, 'r') as f:
    lines = f.readlines()

# 每行格式: video_id  start_frame  end_frame  action_label
for line in lines[:5]:
    vid, s, e, label = line.strip().split()
    print(vid, s, e, label)
  • 基准实验:先使用官方提供的 TCN 实现(GitHub 上有对应代码),在 4‑fold 划分上跑完整训练,记录 Acc、Edit、F1@10/25/50,再与最新模型(如 MS‑TCN、CoST)进行对比。
  • 扩展:若需要跨视角特征,可利用 多摄像头同步帧 合并为 多模态输入RGB + 光流 + 深度),进一步提升分割精度。

简要结论
Breakfast Actions 数据集是一个规模适中、标注细致、场景真实的厨房动作视频库,专为细粒度时间动作分割与识别设计。它提供了完整的下载渠道、标准划分和评估协议,已成为视频理解领域的核心基准之一。研究者可以直接使用官方数据进行模型训练,也可以在此基础上探索多视角、弱监督或跨模态学习等前沿方向。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!