什么是GTEA数据集

AI解读 14小时前 硕雀
5 0

GTEA(Georgia Tech Egocentric Activity)数据集是由美国乔治亚理工学院计算系在 2011 年 CVPR 论文 Learning to Recognize Objects in Egocentric Activities 中首次发布的第一人称视角视频数据集,主要用于细粒度动作分割与识别研究。

核心特征

  • 场景与任务:包含 7 种日常厨房活动(如制作三明治、冲泡茶或咖啡),每种活动由 4 位不同的参与者完成。
  • 规模:共 28 段视频,每段约 20 秒,累计约 31 222 帧,采样率 15 fps。
  • 标注:提供每帧的细粒度动作标签(约 20 个动作实例),以及对应的对象边界框和手部掩码,可直接用于动作分割、手部分割和对象识别等任务。
  • 数据格式:视频为 RGB MP4,标签以文本文件(.txt)存储,手部掩码为单通道 PNG,兼容常用深度学习框架PyTorchTensorFlow)读取。

获取方式

  • 官方下载页面(Georgia Tech Egocentric Activity 数据集)提供直接下载链接,支持 HTTPDropbox 两种方式,文件大小约 1.2 GB。
  • 也可通过 CSDN 文章中提供的 “Link” 访问原始页面获取下载链接。

常用基准

  • 动作分割基准:MS‑TCN、ED‑TCN、SSTDA 等模型在 GTEA 上的 F1@{10,25,50} 均在 80% 以上,常被用于评估细粒度时间分割性能。
  • 手部分割基准:基于 U‑Net、Mask‑RCNN 的方法在手部二值掩码上可达到 92%+ 的 IoU

研究价值

  • 由于数据采集环境统一、动作细粒度丰富,GTEA 成为评估 egocentric 视觉算法(动作识别、手部分割、对象交互建模)的标准基准。
  • 与后续扩展数据集(EGTEA Gaze+、Breakfast、50Salads)相比,GTEA 更侧重单一厨房场景的高质量标注,适合作为小规模、精细实验的起点。

相关链接

通过上述资源,研究者可以快速获取 GTEA 数据并在动作分割、手部检测等任务上进行实验与对比。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!