什么是NVGaze数据集

AI解读 20小时前 硕雀
7 0

NVGaze 数据集概览

内容 说明 关键来源
研发单位 NVIDIA(联合 UNC)
发布时间 2019 年 5 月(论文《NVGaze: An Anatomically‑Informed Dataset for Low‑Latency, Near‑Eye Gaze Estimation》)
数据集结构 1. 合成子集:约 200 万张红外(IR)近眼图像,分辨率 1280 × 960,使用解剖学驱动的眼模型渲染,涵盖面部形状、注视方向、瞳孔/虹膜大小、肤色、光照、相机滑移等多因素变化。
2. 真实子集:约 250 万张 IR 近眼图像,采自 35 位受试者(或 30‑35 人),分辨率 640 × 480,包含多种光照、佩戴眼镜/隐形眼镜、睫毛、眉毛、眨眼等真实干扰。
标注信息 - 2D 注视向量(gaze vector)
- 3D 眼球位置
- 2D 瞳孔中心
- 眼部区域分割割掩码(瞳孔、虹膜、巩膜、皮肤、光斑 glints)
- 头部姿态、眼睑状态、瞳孔直径等
分辨率与质量 合成图像 1280 × 960(远高于以往 200 × 200 左右的合成数据),真实图像 640 × 480,均为单通道红外,适配头戴式显示器的近眼摄像头。
数据生成方式 合成:基于 10 个人体面部模型(5 男 5 女),使用 GPU 超算进行光线追踪(每张约 30 s),总计约 3.8 年单机算力,加入皮肤/虹膜材质、IR 透射、反射、散射等物理效应。
真实:在 HMD 中布置四颗 IR LED,捕获 30 Hz 视频,受试者完成视标任务(如辨认字母 “E”)以获得精确注视标签。
规模 合成 2 M 张 + 真实 2.5 M 张 ≈ 450 万张(截至论文发布)。
主要贡献 1. 提供规模最大、分辨率最高的近眼 IR 数据集。
2. 通过解剖学细节提升合成图像的真实感,显著改善跨域(synthetic → real)训练效果。
3. 公开眼模型、渲染与动画代码,方便研究者自行生成针对特定硬件的合成数据。
4. 基于该数据集训练的网络在 30° × 40° 视场内实现 2.06° ± 0.44° 的平均误差;对单一受试者微调后可达 0.5° 的最佳误差。
网络性能 - 推理速度 > 1 kHz(Titan V、Jetson TX2)
- 低延迟(亚毫秒级)
- 同时输出注视向量与瞳孔位置,鲁棒性优于现有方法(如 PupilNet、ExCuSe)
公开渠道 - 论文 PDF(OpenReview):
- 补充材料(PDF):
- 代码与模型(随论文发布,GitHub 链接在论文附录中)
- 如需下载完整数据集,需通过论文作者提供的下载脚本或联系 NVIDIA 研究团队(论文结尾提供获取方式)。

为什么 NVGaze 在近眼注视估计领域重要?

  1. 规模与分辨率:合成子集的 1280 × 960 像素是目前公开的近眼数据集中最高的,能够训练高分辨率网络,提升细粒度特征捕获能力。
  2. 解剖学真实性:在合成阶段加入了瞳孔收缩位移、角膜折射、皮肤光谱等细节,使得模型在真实场景下的迁移误差大幅降低。
  3. 多样化干扰:真实子集覆盖了眼镜、睫毛、遮挡、不同肤色、不同 IR 照明等实际使用中常见的挑战,帮助网络学习更强的鲁棒性。
  4. 低延迟:配合高效的 6‑层卷积网络,能够在嵌入式 GPU(如 Jetson TX2)上实现 > 1 kHz 推理,满足 VR/AR 头显对实时注视追踪的严格要求。

相关链接(便于直接访问)

以上信息全部来源于公开的学术文献与官方补充材料,未进行任何推测或虚构。如需获取完整数据集,请参考论文提供的下载脚本或直接联系作者获取授权。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!