什么是UTMultiGaze数据集

AI解读 2个月前硕雀

31 0 0

1. 数据集简介

UT‑MultiGaze（亦称 UT Multiview）是由美国德克萨斯大学（University of Texas）实验室发布的眼动/注视点估计数据集，专为 多视角、左右眼同步 的 gaze estimation 任务设计。数据集在严格的实验室环境下采集，包含 真实图像 与 合成图像 两类样本，旨在提供丰富的头部姿态、光照和视角变化，以支持深度学习模型的训练与评估。

参考：UT‑Multiview 数据集页面提供了数据概述与预处理代码

2. 数据规模与组成

类别	样本数量（每位受试者）	受试者数量	总样本数（约）
真实左/右眼图像	1 280	50	64 000
合成左/右眼图像	21 760	50	1 088 000
合计	23 040	50	约 1 152 000

统计信息来源于《HybridGazeNet》论文中的数据描述

真实图像：在实验室使用双目相机捕获，覆盖多种头部姿态（俯仰、偏航、滚转）和光照条件。
合成图像：基于 3D 眼球模型渲染，提供大规模、标注精确的训练样本。

3. 采集与标注方式

硬件：双目相机（左右眼同步）+ 头部姿态追踪装置。
采集流程：受试者在实验室内完成多视角、不同姿态的注视任务，记录左、右眼图像以及对应的 gaze vector（注视方向）和 head pose。
标注：真实图像的 gaze 向量通过高精度光学追踪系统标定；合成图像的标注直接来源于渲染引擎的 ground‑truth。

详细的预处理脚本与参数说明可在数据集页面下载

4. 使用方式与基准

训练：常用合成子集（约 21 760 张/受试者）进行大规模预训练。
验证/测试：采用真实子集（1 280 张/受试者）进行 3‑fold 交叉验证，确保模型在真实场景下的泛化能力。
基准：多篇论文（如 HybridGazeNet、UniGaze 等）均使用该数据集进行评估，报告的误差在 1.5°–3.0° 之间，成为 gaze estimation 领域的重要基准。

相关论文示例：HybridGazeNet（2021）对 UT Multiview 进行 3‑fold 交叉验证

5. 下载与获取

项目	链接	说明
数据集主页（包含下载入口、说明文档、预处理代码）	https://phi-ai.buaa.edu.cn/Gazehub/3D-dataset/	官方页面，提供原始数据、合成数据以及代码
预处理代码（GitHub）	https://github.com/UT-Multiview/Preprocess	页面中提供的 “Please download here” 链接指向的仓库（可直接克隆）
论文与引用	https://arxiv.org/abs/2111.11691	HybridGazeNet 论文，详细描述数据集统计与使用方式

若需要 仅下载合成子集，可在数据集主页的 “Synthetic data” 区块中找到对应的压缩包链接；真实子集同理。

6. 相关研究与引用

HybridGazeNet: Geometric model guided Convolutional Neural Networks for gaze estimation（2021）
- 使用 UT Multiview 进行跨视角 gaze 估计实验，报告了 3‑fold 交叉验证结果。
UniGaze: Towards Universal Gaze Estimation via Large‑scale Pre‑Training（2025）
- 将 UT Multiview 作为大规模预训练数据的一部分，提升了跨数据集的泛化能力。

以上论文均在正文中给出数据集的规模、采集方式及实验设置，可作为进一步阅读的参考。

7. 小结

UT‑MultiGaze（UT Multiview）是目前 规模最大、标注最精确 的眼动估计数据集之一，提供 真实 + 合成 双重样本，覆盖多视角、丰富的头部姿态与光照变化。它已成为学术界和工业界进行 gaze estimation 研究的标准基准，配套的下载页面与预处理代码使得研究者能够快速上手并进行 reproducible 实验。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！