什么是GTEA数据集

AI解读 2个月前硕雀

43 0 0

GTEA（Georgia Tech Egocentric Activity）数据集是由美国乔治亚理工学院计算系在 2011 年 CVPR 论文 Learning to Recognize Objects in Egocentric Activities 中首次发布的第一人称视角视频数据集，主要用于细粒度动作分割与识别研究。

核心特征

场景与任务：包含 7 种日常厨房活动（如制作三明治、冲泡茶或咖啡），每种活动由 4 位不同的参与者完成。
规模：共 28 段视频，每段约 20 秒，累计约 31 222 帧，采样率 15 fps。
标注：提供每帧的细粒度动作标签（约 20 个动作实例），以及对应的对象边界框和手部掩码，可直接用于动作分割、手部分割和对象识别等任务。
数据格式：视频为 RGB MP4，标签以文本文件（.txt）存储，手部掩码为单通道 PNG，兼容常用深度学习框架（PyTorch、TensorFlow）读取。

获取方式

官方下载页面（Georgia Tech Egocentric Activity 数据集）提供直接下载链接，支持 HTTP 与 Dropbox 两种方式，文件大小约 1.2 GB。
也可通过 CSDN 文章中提供的 “Link” 访问原始页面获取下载链接。

常用基准

动作分割基准：MS‑TCN、ED‑TCN、SSTDA 等模型在 GTEA 上的 F1@{10,25,50} 均在 80% 以上，常被用于评估细粒度时间分割性能。
手部分割基准：基于 U‑Net、Mask‑RCNN 的方法在手部二值掩码上可达到 92%+ 的 IoU。

研究价值

由于数据采集环境统一、动作细粒度丰富，GTEA 成为评估 egocentric 视觉算法（动作识别、手部分割、对象交互建模）的标准基准。
与后续扩展数据集（EGTEA Gaze+、Breakfast、50Salads）相比，GTEA 更侧重单一厨房场景的高质量标注，适合作为小规模、精细实验的起点。

相关链接

官方下载页面：https://cseweb.ucsd.edu/\~gtesc/ （提供 .zip 下载）
论文原文（CVPR 2011）：https://openaccess.thecvf.com/content_cvpr_2011/papers/Fathi_Learning_to_Recognize_2011_CVPR_paper.pdf
CSDN 数据集概览与下载链接：https://blog.csdn.net/cau_ayao/article/details/127324202

通过上述资源，研究者可以快速获取 GTEA 数据并在动作分割、手部检测等任务上进行实验与对比。

Georgia Tech Egocentric Activity数据集 GTEA数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！