项目 | 内容 | 参考 |
---|---|---|
数据来源 | 由 Hilde Kuehne、Arslan & Serre(ENS Paris)收集,面向厨房烹饪活动的细粒度视频数据。 | |
参与者 | 52 位志愿者,在 18 套不同厨房环境中完成拍摄。 | |
活动类别 | 10 种高层次烹饪任务(如冲咖啡、榨橙汁、做三明治等),进一步细分为 48 种原子动作(atomic actions)。 | |
视频数量 | 约 1 712 条剪辑(部分文献记为 1 712 条,另有 1 718 条的统计),总时长约 66 小时,约 350 万帧。 | |
摄像视角 | 每段视频使用 3–5 台固定摄像机同步录制,提供多视角信息,便于跨视角动作识别。 | |
标注形式 | 帧级动作标签(时间边界)以及对应的原子动作类别,支持 动作分割(temporal action segmentation) 与 动作识别(action classification) 两大任务。 | |
常用划分 | 官方提供 4‑fold 交叉验证划分(train/val/test),每折约 428 条视频。多数论文直接使用该划分进行评估。 | |
评估指标 | - 帧级准确率(Frame‑wise Accuracy) - 编辑距离(Edit Score) - F1@{10,25,50}(基于不同 IoU 阈值的 F1 分数) |
|
下载链接 | 官方页面提供数据下载、说明文档以及基准代码: https://serre‑lab.clips.brown.edu/resource/breakfast‑actions‑dataset |
|
论文引用 | 原始论文:Cooking in the kitchen: Recognizing and Segmenting Human Activities in Videos(CVPR 2014),作者 Hilde Kuehne, Juergen Gall, Thomas Serre。 | |
常见基准模型 | - Temporal Convolutional Networks (TCN) - MS‑TCN、ED‑TCN、RNN‑HMM 等弱监督/全监督方法均在该数据集上报告显著提升。 |
|
应用场景 | - 机器人厨房助理 - 智能家居行为监控 - 教学视频自动索引与检索 - 人机交互中的细粒度动作理解 |
关键特点与研究价值
- 细粒度动作分割:48 个原子动作提供了比传统动作识别更细致的时间结构,适合研究 长序列建模 与 跨动作边界检测。
- 多视角同步:3–5 路摄像机为 跨视角对齐、视角不变特征学习 提供了天然实验平台。
- 真实厨房环境:18 套厨房布局、不同光照与背景,使模型在 跨场景迁移 时更具挑战性。
- 标准划分与评估:官方 4‑fold 划分与统一指标(Acc、Edit、F1)保证了不同方法之间的 公平比较。
- 广泛使用:自 2014 年发布以来,已成为 Temporal Action Segmentation、Weakly‑Supervised Learning、Temporal Convolutional Networks 等方向的基准数据集,超过 200 篇论文引用。
使用建议
- 下载与准备:访问官方链接(上表),下载压缩包后解压,目录结构为
Breakfast/
→videos/
、annotations/
。 - 加载示例(Python):
import os
import json
import cv2
data_root = '/path/to/Breakfast'
anno_path = os.path.join(data_root, 'annotations', 'breakfast_train.txt')
with open(anno_path, 'r') as f:
lines = f.readlines()
# 每行格式: video_id start_frame end_frame action_label
for line in lines[:5]:
vid, s, e, label = line.strip().split()
print(vid, s, e, label)
- 基准实验:先使用官方提供的 TCN 实现(GitHub 上有对应代码),在 4‑fold 划分上跑完整训练,记录 Acc、Edit、F1@10/25/50,再与最新模型(如 MS‑TCN、CoST)进行对比。
- 扩展:若需要跨视角特征,可利用 多摄像头同步帧 合并为 多模态输入(RGB + 光流 + 深度),进一步提升分割精度。
简要结论
Breakfast Actions 数据集是一个规模适中、标注细致、场景真实的厨房动作视频库,专为细粒度时间动作分割与识别设计。它提供了完整的下载渠道、标准划分和评估协议,已成为视频理解领域的核心基准之一。研究者可以直接使用官方数据进行模型训练,也可以在此基础上探索多视角、弱监督或跨模态学习等前沿方向。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!