项目 | 内容 |
---|---|
全称 | ETH‑XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation |
发布年份 | 2020(论文发表于 ECCV 2020) |
规模 | 超过 100 万张 高分辨率图像(面部补丁 224×224 像素约 130 GB,448×448 像素约 497 GB,原始全身图像约 7 TB) |
参与者 | 110 名受试者(47 女 / 63 男),年龄 19‑41 岁 |
采集硬件 | 18 台 Canon 250D 数码单反相机从不同角度同步拍摄,配合可调光源和校准系统记录真实注视目标 |
光照条件 | 16 种受控照明设置,覆盖多种光强与光源方向 |
姿态与注视范围 | 极端头部姿态(俯仰、偏航角度广泛分布)和大范围注视方向,显著超过现有数据集的覆盖范围 |
标注 | 每帧提供 3D 头部姿态、2D/3D 注视向量、眼睛关键点等,采用高精度校准装置获取真实注视点 |
用途 | 训练与评估注视估计模型,尤其是对大姿态、光照变化和高分辨率需求的场景;也可用于跨域鲁棒性研究 |
获取方式 | 需填写 Google 表单申请下载权限,官方提供 request‑on‑demand 方式 |
官方资源 | • 论文 PDF(DOI: 10.1007/978-3-030-58558-7_22) • Papers with Code 页面(包含数据概览、基准、代码链接) • CodaLab 官方竞赛(用于评测模型) 链接:https://competitions.codalab.org/competitions/28930 |
代码/基准 | 官方提供基线实现、预训练模型以及数据预处理脚本,常见框架(PyTorch、TensorFlow)均有示例 |
相关文献 | - Zhang X. et al., “ETH‑XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation”, ECCV 2020 - 综述中常引用该数据集作为大规模注视估计基准 |
关键特点简述
- 规模与分辨率:超过一百万张图像,最高分辨率可达 7 TB 原始数据,远超传统数据集(如 MPIIGaze、GazeCapture)。
- 姿态与光照多样性:通过 18 台相机和 16 种受控光照,捕获了极端头部姿态和丰富的光照变化,提升模型对真实场景的适应能力。
- 高精度标注:使用校准装置获取真实 3D 注视向量,误差在亚度级别,为精细注视估计提供可靠监督。
- 开放获取(需申请):数据集采用申请制,填写 Google 表单即可获取下载链接,确保合法使用并可追踪数据分发。
- 丰富生态:配套的 Papers with Code 页面、官方 CodaLab 竞赛以及基线代码,使研究者能够快速复现、比较并提交新方法。
获取与使用建议
- 申请下载:访问 Google 表单(在 GitHub “awesome‑gaze‑estimation‑new” 项目页面中提供链接)填写基本信息后会收到下载链接。
- 快速入门:下载后参考官方提供的
data/xgaze
目录结构和preprocess.py
脚本,将原始图像转换为 224×224 面部补丁,直接用于常见的卷积网络训练。 - 基准评估:可在 CodaLab 竞赛页面查看最新排行榜和评估脚本,使用官方提供的
evaluation.py
进行统一评测。 - 文献引用:在论文或报告中引用原始论文 DOI 以及数据集页面即可满足学术规范。
小贴士:由于数据量巨大(TB 级),建议使用高速存储(SSD/NVMe)并采用分布式数据加载框架(如 PyTorch DataLoader + 多进程)以提升训练效率。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!