什么是GazeCapture数据集

GazeCapture 数据集概览

1. 什么是 GazeCapture

GazeCapture 是首个面向移动设备的大规模眼动追踪数据集,由 MIT CSAIL 与多所高校合作在 2016 年公开。它通过众包方式在 iPhone / iPad 上采集,旨在让“眼动追踪走进每个人的掌中”,为在普通智能手机和平板上实现高精度 gaze estimation 提供训练素材。

2. 数据规模与组成

项目 说明
参与者数量 约 1 450–1 474 名(覆盖不同年龄、性别、种族)
图像帧数 约 2.4 M–2.5 M 帧(超过 2 445 504 张图像)
采集设备 iPhone / iPad 前置摄像头,支持多种屏幕方向(竖屏、横屏)
标注类型 屏幕上 2D 注视点(像素坐标)以及相机到眼睛的物理距离,兼容设备无关的坐标系
数据划分 训练 1 251 983 张、验证 59 480 张、测试 179 496 张(共 1 490 959 张有效帧)

3. 收集方式

  • 众包平台:使用专门开发的 iOS 应用配合 Amazon Mechanical Turk,参与者在“飞行模式”下完成任务,确保无外部干扰。
  • 任务设计:屏幕上出现脉冲红点,要求用户持续注视;实时检测面部与眼睛,若检测失败则重新采集。
  • 多样性:采集过程覆盖多种光照、头部姿态、设备握持方式和屏幕方向,显著提升数据的变异性和鲁棒性

4. 主要特征与优势

  1. 规模最大:相较于当时公开的眼动数据集,参与者数量约为 30 倍、帧数约为 10 倍,提供了丰富的姿态与光照变化。
  2. 移动端专用:专注于前置摄像头视角,适配手机和平板的实际使用场景。
  3. 标注完整:提供屏幕坐标与相机距离两种信息,便于实现设备无关的 gaze 预测。
  4. 公开可用:代码、模型(iTracker)以及完整数据均可在官方页面下载,已被多篇后续研究作为基准数据集使用。

5. 可获取资源

资源 链接
数据集主页(含下载链接、说明文档) https://gazecapture.csail.mit.edu/download.php
原始论文(CVPR 2016) Eye Tracking for Everyone” – Krafka et al., CVPR 2016
iTracker 代码与模型 同上论文附带的 GitHub 仓库(GitHub - CSAILVision/GazeCapture: Eye Tracking for Everyone
相关评测与基准报告 多篇后续论文(如 Adaptive Feature Fusion Network、iTracker 评测)均引用 GazeCapture 进行实验

6. 研究与应用场景

  • 移动端 gaze estimation:iTracker 在手机上实现 10–15 fps 实时预测,误差约 1.3 cm(校准后)。
  • 跨设备迁移学习:利用 GazeCapture 训练的特征在其他数据集(如 MPIIFaceGazeETH‑XGaze)上仍保持竞争力。
  • 人机交互:用于视线驱动的 UI、注意力分析、辅助残障用户等实际产品原型。

7. 小结

GazeCapture 通过大规模、真实世界的移动端采集,填补了传统实验室眼动数据集在规模与多样性上的空白,为移动设备上的视线追踪提供了坚实的数据基础。其公开的下载渠道、完整的标注以及配套的 iTracker 模型,使其成为眼动研究与实际应用的核心基准资源。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!