1. 什么是 GazeCapture
GazeCapture 是首个面向移动设备的大规模眼动追踪数据集,由 MIT CSAIL 与多所高校合作在 2016 年公开。它通过众包方式在 iPhone / iPad 上采集,旨在让“眼动追踪走进每个人的掌中”,为在普通智能手机和平板上实现高精度 gaze estimation 提供训练素材。
2. 数据规模与组成
项目 | 说明 |
---|---|
参与者数量 | 约 1 450–1 474 名(覆盖不同年龄、性别、种族) |
图像帧数 | 约 2.4 M–2.5 M 帧(超过 2 445 504 张图像) |
采集设备 | iPhone / iPad 前置摄像头,支持多种屏幕方向(竖屏、横屏) |
标注类型 | 屏幕上 2D 注视点(像素坐标)以及相机到眼睛的物理距离,兼容设备无关的坐标系 |
数据划分 | 训练 1 251 983 张、验证 59 480 张、测试 179 496 张(共 1 490 959 张有效帧) |
3. 收集方式
- 众包平台:使用专门开发的 iOS 应用配合 Amazon Mechanical Turk,参与者在“飞行模式”下完成任务,确保无外部干扰。
- 任务设计:屏幕上出现脉冲红点,要求用户持续注视;实时检测面部与眼睛,若检测失败则重新采集。
- 多样性:采集过程覆盖多种光照、头部姿态、设备握持方式和屏幕方向,显著提升数据的变异性和鲁棒性。
4. 主要特征与优势
- 规模最大:相较于当时公开的眼动数据集,参与者数量约为 30 倍、帧数约为 10 倍,提供了丰富的姿态与光照变化。
- 移动端专用:专注于前置摄像头视角,适配手机和平板的实际使用场景。
- 标注完整:提供屏幕坐标与相机距离两种信息,便于实现设备无关的 gaze 预测。
- 公开可用:代码、模型(iTracker)以及完整数据均可在官方页面下载,已被多篇后续研究作为基准数据集使用。
5. 可获取资源
资源 | 链接 |
---|---|
数据集主页(含下载链接、说明文档) | https://gazecapture.csail.mit.edu/download.php |
原始论文(CVPR 2016) | “Eye Tracking for Everyone” – Krafka et al., CVPR 2016 |
iTracker 代码与模型 | 同上论文附带的 GitHub 仓库(GitHub - CSAILVision/GazeCapture: Eye Tracking for Everyone) |
相关评测与基准报告 | 多篇后续论文(如 Adaptive Feature Fusion Network、iTracker 评测)均引用 GazeCapture 进行实验 |
6. 研究与应用场景
- 移动端 gaze estimation:iTracker 在手机上实现 10–15 fps 实时预测,误差约 1.3 cm(校准后)。
- 跨设备迁移学习:利用 GazeCapture 训练的特征在其他数据集(如 MPIIFaceGaze、ETH‑XGaze)上仍保持竞争力。
- 人机交互:用于视线驱动的 UI、注意力分析、辅助残障用户等实际产品原型。
7. 小结
GazeCapture 通过大规模、真实世界的移动端采集,填补了传统实验室眼动数据集在规模与多样性上的空白,为移动设备上的视线追踪提供了坚实的数据基础。其公开的下载渠道、完整的标注以及配套的 iTracker 模型,使其成为眼动研究与实际应用的核心基准资源。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!