什么是ETH‑XGaze数据集

ETH‑XGaze数据集概览

项目 内容
全称 ETH‑XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation
发布年份 2020(论文发表于 ECCV 2020)
规模 超过 100 万张 高分辨率图像(面部补丁 224×224 像素约 130 GB,448×448 像素约 497 GB,原始全身图像约 7 TB)
参与者 110 名受试者(47 女 / 63 男),年龄 19‑41 岁
采集硬件 18 台 Canon 250D 数码单反相机从不同角度同步拍摄,配合可调光源和校准系统记录真实注视目标
光照条件 16 种受控照明设置,覆盖多种光强与光源方向
姿态与注视范围 极端头部姿态(俯仰、偏航角度广泛分布)和大范围注视方向,显著超过现有数据集的覆盖范围
标注 每帧提供 3D 头部姿态、2D/3D 注视向量、眼睛关键点等,采用高精度校准装置获取真实注视点
用途 训练与评估注视估计模型,尤其是对大姿态、光照变化和高分辨率需求的场景;也可用于跨域鲁棒性研究
获取方式 需填写 Google 表单申请下载权限,官方提供 request‑on‑demand 方式

ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation | AIT Lab

官方资源 • 论文 PDF(DOI: 10.1007/978-3-030-58558-7_22)
• Papers with Code 页面(包含数据概览、基准、代码链接)
• CodaLab 官方竞赛(用于评测模型)
链接:https://competitions.codalab.org/competitions/28930
代码/基准 官方提供基线实现、预训练模型以及数据预处理脚本,常见框架(PyTorchTensorFlow)均有示例
相关文献 - Zhang X. et al., “ETH‑XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation”, ECCV 2020
- 综述中常引用该数据集作为大规模注视估计基准

关键特点简述

  1. 规模与分辨率:超过一百万张图像,最高分辨率可达 7 TB 原始数据,远超传统数据集(如 MPIIGaze、GazeCapture)。
  2. 姿态与光照多样性:通过 18 台相机和 16 种受控光照,捕获了极端头部姿态和丰富的光照变化,提升模型对真实场景的适应能力。
  3. 高精度标注:使用校准装置获取真实 3D 注视向量,误差在亚度级别,为精细注视估计提供可靠监督。
  4. 开放获取(需申请)‍:数据集采用申请制,填写 Google 表单即可获取下载链接,确保合法使用并可追踪数据分发。
  5. 丰富生态:配套的 Papers with Code 页面、官方 CodaLab 竞赛以及基线代码,使研究者能够快速复现、比较并提交新方法。

获取与使用建议

  • 申请下载:访问 Google 表单(在 GitHub “awesome‑gaze‑estimation‑new” 项目页面中提供链接)填写基本信息后会收到下载链接。
  • 快速入门:下载后参考官方提供的 data/xgaze 目录结构和 preprocess.py 脚本,将原始图像转换为 224×224 面部补丁,直接用于常见的卷积网络训练。
  • 基准评估:可在 CodaLab 竞赛页面查看最新排行榜和评估脚本,使用官方提供的 evaluation.py 进行统一评测。
  • 文献引用:在论文或报告中引用原始论文 DOI 以及数据集页面即可满足学术规范。

小贴士:由于数据量巨大(TB 级),建议使用高速存储(SSD/NVMe)并采用分布式数据加载框架(如 PyTorch DataLoader + 多进程)以提升训练效率。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!