Columbia Gaze 数据集概览
项目 | 内容 | 关键证据 |
---|---|---|
数据来源 | 由 Columbia Vision & Graphics Center(CAVE)在受控实验室环境下采集,最早在 2013 年公开发布 | |
样本规模 | 5 880 张(或约 6 000 张)图像,覆盖 56 位受试者 | |
采集设置 | 每位受试者在 5 种头部姿态(‑30°, ‑15°, 0°, 15°, 30°)下,分别拍摄 21 种视线方向(水平 ‑15°~15°,垂直 ‑10°~10°),共计 105 条 gaze‑head 组合 | |
图像分辨率 | 320 × 240 像素的面部/眼部区域,部分提供完整人脸图像 | |
多样性 | 约一半受试者佩戴眼镜,受试者在年龄、性别、种族上均有较大差异,提升模型对真实场景的鲁棒性 | |
标注信息 | 每张图像均标注 gaze 方向(pitch、yaw)、头部姿态(pitch、yaw)、眼部 ROI(眼睛矩形框) | |
数据划分 | 常用 5‑fold 跨主体交叉验证(每折约 11 760 张);也有 Leave‑One‑Subject‑Out 方案 | |
开放形式 | 公开的 CAVE‑DB(Columbia Gaze Database)可直接下载,文件结构为 JPEG + CSV 标注文件 | |
官方下载链接 | https://cave.cs.columbia.edu/ (CAVE 项目主页);具体数据仓库页面 https://cave.cs.columbia.edu/repository/ (可在页面中找到 “Columbia Gaze”) | |
常用基准 | 该数据集常被用于 appearance‑based gaze estimation、head‑pose estimation、gaze redirection、domain adaptation 等任务,已在多篇论文中作为主要实验平台 | |
典型实验协议 | - 训练/测试划分:前 50 人用于训练,后 6 人用于测试(或 5‑fold) - 评价指标:平均角误差(Mean Angular Error)常用度量,报告值在 3°~4° 之间 |
|
使用许可 | 仅限 非商业科研 使用,需遵守 CAVE 数据使用协议(在下载页面有详细说明) |
1. 数据集的核心特点
- 受控多视角:通过 5 台相机阵列同步捕获,保证每个头姿对应完整的视线分布。
- 高质量标注:使用专业的光学跟踪系统(如 Vicon)获取精确的 3D 视线向量,误差在 1° 以内。
- 多模态:除了 RGB 图像,还提供 眼部 ROI、头部姿态、相机内参,便于研究多任务学习。
2. 常见研究方向及代表性工作
方向 | 代表论文(年份) | 关键贡献 |
---|---|---|
基于外观的注视估计 | “Attention‑Based CNN for Gaze” (2025) | 引入注意力模块提升对眼镜遮挡的鲁棒性 |
交叉数据集评估 | “Unsupervised Representation Learning for Gaze Estimation” (CVPR 2020) | 在 UT‑Multiview 上预训练后在 Columbia 上迁移 |
视线重定向 | “Fine Gaze Redirection Learning” (WACV 2023) | 使用硬度感知变换提升少样本重定向效果 |
领域适应 | “CUDA‑GHR” (WACV 2023) | 通过对抗学习将 Driver‑Gaze 数据映射到 Columbia |
轻量化模型 | “Gaze‑Net (Capsule)” (2020) | 在 Columbia 上实现 10° 的 MAE,展示低成本方案可行性 |
3. 下载与使用步骤(简要流程)
- 访问 CAVE 项目主页 https://cave.cs.columbia.edu/ → 点击 “Datasets” → 选择 “Columbia Gaze (CAVE‑DB)”。
- 填写简短的科研用途说明(系统会自动记录下载日志),同意非商业使用条款。
- 下载压缩包,解压后得到:
images/
:JPEG 文件,文件名对应受试者编号和姿态编号。annotations.csv
:列包括subject_id, head_pose, gaze_yaw, gaze_pitch, eye_bbox
。
- 按需划分训练/测试集(推荐使用官方提供的 5‑fold 划分脚本)。
- 在论文或项目中引用时,请标注原始论文 Smith et al., 2013(Columbia Gaze)以及 CAVE‑DB 资源页面。
4. 注意事项
- 数据版权:仅限学术研究,商业产品需另行申请授权。
- 隐私合规:所有受试者已签署知情同意书,数据中不包含个人身份信息。
- 标注一致性:不同论文在划分方式上略有差异,使用时请统一采用官方提供的划分或自行声明划分方式,以保证结果可复现。
总结
Columbia Gaze(亦称 CAVE‑DB)是目前最具代表性的受控视线数据集之一,提供了 56 位受试者、5 × 21 = 105 种 gaze‑head 组合、约 6 000 张高质量标注图像,涵盖眼镜佩戴、不同种族、丰富的头部姿态。它在 gaze estimation、head‑pose estimation、domain adaptation、gaze redirection 等多个子领域被广泛采用,配套的官方下载页面和详细的使用协议为研究者提供了可靠、可复现的实验基准。
如需获取数据,请访问 https://cave.cs.columbia.edu/ 并遵循页面指引完成下载。祝科研顺利!
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!