什么是ETH‑XGaze数据集

AI解读 2个月前硕雀

30 0 0

ETH‑XGaze数据集概览

项目	内容
全称	ETH‑XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation
发布年份	2020（论文发表于 ECCV 2020）
规模	超过 100 万张高分辨率图像（面部补丁 224×224 像素约 130 GB，448×448 像素约 497 GB，原始全身图像约 7 TB）
参与者	110 名受试者（47 女 / 63 男），年龄 19‑41 岁
采集硬件	18 台 Canon 250D 数码单反相机从不同角度同步拍摄，配合可调光源和校准系统记录真实注视目标
光照条件	16 种受控照明设置，覆盖多种光强与光源方向
姿态与注视范围	极端头部姿态（俯仰、偏航角度广泛分布）和大范围注视方向，显著超过现有数据集的覆盖范围
标注	每帧提供 3D 头部姿态、2D/3D 注视向量、眼睛关键点等，采用高精度校准装置获取真实注视点
用途	训练与评估注视估计模型，尤其是对大姿态、光照变化和高分辨率需求的场景；也可用于跨域鲁棒性研究
获取方式	需填写 Google 表单申请下载权限，官方提供 request‑on‑demand 方式 ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation \| AIT Lab
官方资源	• 论文 PDF（DOI: 10.1007/978-3-030-58558-7_22） • Papers with Code 页面（包含数据概览、基准、代码链接） • CodaLab 官方竞赛（用于评测模型）链接：https://competitions.codalab.org/competitions/28930
代码/基准	官方提供基线实现、预训练模型以及数据预处理脚本，常见框架（PyTorch、TensorFlow）均有示例
相关文献	- Zhang X. et al., “ETH‑XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation”, ECCV 2020 - 综述中常引用该数据集作为大规模注视估计基准

关键特点简述

规模与分辨率：超过一百万张图像，最高分辨率可达 7 TB 原始数据，远超传统数据集（如 MPIIGaze、GazeCapture）。
姿态与光照多样性：通过 18 台相机和 16 种受控光照，捕获了极端头部姿态和丰富的光照变化，提升模型对真实场景的适应能力。
高精度标注：使用校准装置获取真实 3D 注视向量，误差在亚度级别，为精细注视估计提供可靠监督。
开放获取（需申请）‍：数据集采用申请制，填写 Google 表单即可获取下载链接，确保合法使用并可追踪数据分发。
丰富生态：配套的 Papers with Code 页面、官方 CodaLab 竞赛以及基线代码，使研究者能够快速复现、比较并提交新方法。

获取与使用建议

申请下载：访问 Google 表单（在 GitHub “awesome‑gaze‑estimation‑new” 项目页面中提供链接）填写基本信息后会收到下载链接。
快速入门：下载后参考官方提供的 data/xgaze 目录结构和 preprocess.py 脚本，将原始图像转换为 224×224 面部补丁，直接用于常见的卷积网络训练。
基准评估：可在 CodaLab 竞赛页面查看最新排行榜和评估脚本，使用官方提供的 evaluation.py 进行统一评测。
文献引用：在论文或报告中引用原始论文 DOI 以及数据集页面即可满足学术规范。

小贴士：由于数据量巨大（TB 级），建议使用高速存储（SSD/NVMe）并采用分布式数据加载框架（如 PyTorch DataLoader + 多进程）以提升训练效率。

ETH‑XGaze ETH‑XGaze数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！