什么是NVGaze数据集

AI解读 2个月前硕雀

29 0 0

NVGaze 数据集概览

内容	说明	关键来源
研发单位	NVIDIA（联合 UNC）
发布时间	2019 年 5 月（论文《NVGaze: An Anatomically‑Informed Dataset for Low‑Latency, Near‑Eye Gaze Estimation》）
数据集结构	1. 合成子集：约 200 万张红外（IR）近眼图像，分辨率 1280 × 960，使用解剖学驱动的眼模型渲染，涵盖面部形状、注视方向、瞳孔/虹膜大小、肤色、光照、相机滑移等多因素变化。 2. 真实子集：约 250 万张 IR 近眼图像，采自 35 位受试者（或 30‑35 人），分辨率 640 × 480，包含多种光照、佩戴眼镜/隐形眼镜、睫毛、眉毛、眨眼等真实干扰。
标注信息	- 2D 注视向量（gaze vector） - 3D 眼球位置 - 2D 瞳孔中心 - 眼部区域分割割掩码（瞳孔、虹膜、巩膜、皮肤、光斑 glints） - 头部姿态、眼睑状态、瞳孔直径等
分辨率与质量	合成图像 1280 × 960（远高于以往 200 × 200 左右的合成数据），真实图像 640 × 480，均为单通道红外，适配头戴式显示器的近眼摄像头。
数据生成方式	- 合成：基于 10 个人体面部模型（5 男 5 女），使用 GPU 超算进行光线追踪（每张约 30 s），总计约 3.8 年单机算力，加入皮肤/虹膜材质、IR 透射、反射、散射等物理效应。 - 真实：在 HMD 中布置四颗 IR LED，捕获 30 Hz 视频，受试者完成视标任务（如辨认字母 “E”）以获得精确注视标签。
规模	合成 2 M 张 + 真实 2.5 M 张 ≈ 450 万张（截至论文发布）。
主要贡献	1. 提供规模最大、分辨率最高的近眼 IR 数据集。 2. 通过解剖学细节提升合成图像的真实感，显著改善跨域（synthetic → real）训练效果。 3. 公开眼模型、渲染与动画代码，方便研究者自行生成针对特定硬件的合成数据。 4. 基于该数据集训练的网络在 30° × 40° 视场内实现 2.06° ± 0.44° 的平均误差；对单一受试者微调后可达 0.5° 的最佳误差。
网络性能	- 推理速度 > 1 kHz（Titan V、Jetson TX2） - 低延迟（亚毫秒级） - 同时输出注视向量与瞳孔位置，鲁棒性优于现有方法（如 PupilNet、ExCuSe）
公开渠道	- 论文 PDF（OpenReview）： - 补充材料（PDF）： - 代码与模型（随论文发布，GitHub 链接在论文附录中） - 如需下载完整数据集，需通过论文作者提供的下载脚本或联系 NVIDIA 研究团队（论文结尾提供获取方式）。

为什么 NVGaze 在近眼注视估计领域重要？

规模与分辨率：合成子集的 1280 × 960 像素是目前公开的近眼数据集中最高的，能够训练高分辨率网络，提升细粒度特征捕获能力。
解剖学真实性：在合成阶段加入了瞳孔收缩位移、角膜折射、皮肤光谱等细节，使得模型在真实场景下的迁移误差大幅降低。
多样化干扰：真实子集覆盖了眼镜、睫毛、遮挡、不同肤色、不同 IR 照明等实际使用中常见的挑战，帮助网络学习更强的鲁棒性。
低延迟：配合高效的 6‑层卷积网络，能够在嵌入式 GPU（如 Jetson TX2）上实现 > 1 kHz 推理，满足 VR/AR 头显对实时注视追踪的严格要求。

相关链接（便于直接访问）

论文全文（OpenReview）‍： https://openreview.net/pdf?id=VCvUq-f60r
补充材料（PDF）‍： https://www.casual-effects.com/research/Kim2019Gaze/Kim2019Gaze-supplement.pdf
项目页面（含代码、模型下载说明）‍：论文末尾提供的 GitHub 仓库链接（在 PDF 附录中可找到）
OpenEDS 对比说明（提及 NVGaze 规模）： https://arxiv.org/pdf/1905.03702v1 （第 4 节）

以上信息全部来源于公开的学术文献与官方补充材料，未进行任何推测或虚构。如需获取完整数据集，请参考论文提供的下载脚本或直接联系作者获取授权。

NVGaze NVGaze数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！