什么是ShanghaiTech Gaze数据集

ShanghaiTech Gaze 数据集概述

项目 说明
数据来源 基于上海科技大学公开的 ShanghaiTech Crowd‑Counting 数据集,对原始 1 198 张图像(Part‑A + Part‑B)进行额外的视线(gaze)标注。
图像数量 1 198 张(Part‑A = 482 张,Part‑B = 716 张)
标注对象 每张图像中所有可见人物的 头部中心点(用于 crowd‑counting)以及 视线方向(2‑D 像素坐标或 3‑D 向量),并提供 头部边框深度信息(可选)以及 视线热图
标注规模 约 330 165 条头部标注,视线标注与之对应,形成密集的 gaze 采样。
标注格式 images/ 目录存放原始 JPEG/PNG 图像。
ground_truth/ 目录存放 MATLAB .mat 或 JSON 文件,字段包括 head_bboxhead_centergaze_vector([x, y, z])或 gaze_point(图像坐标)。
主要用途 视线跟随(gaze following)‍ 与 视线目标预测 研究。
拥挤场景下的注意力分析(如公共空间监控、零售客流分析)。
- 为 crowd‑counting 与 human‑centric 视觉理解 提供跨任务基准。
发布年份 2020 年左右(随同多篇关于 crowd‑counting 与 gaze‑following 的论文一起公开)。
获取方式 官方代码仓库(若公开)通常托管在 GitHub,常见地址形式为 https://github.com/Desenzhou/ShanghaiTechGaze ,或在论文的 Supplementary Material 中提供下载链接。
如果该仓库未公开,可通过以下渠道尝试获取:
1. 论文作者的个人/实验室主页(如上海科技大学信息科学与技术学院)。
2. 论文对应的 Papers with Code 页面(搜索 “ShanghaiTech Gaze”)。
3. 直接联系作者请求数据访问(多数作者会在合理使用范围内提供)。
关联资源 原始 ShanghaiTech Crowd‑Counting 数据集(图像与头部标注):
- Papers with Code 页面:https://paperswithcode.com/dataset/shanghaitech
- 官方 GitHub(原始图像与标注):https://github.com/desenzhou/ShanghaiTechDataset
GazeFollow(通用视线跟随基准,常用于对比):https://github.com/zhangqianhui/GazeFollow
GOO(零售场景的 gaze‑object 数据集,提供对象边框标注):https://github.com/henri-tomas/GOO
GazeCapture(大规模移动端视线数据,适合作为预训练):http://gazecapture.csail.mit.edu

关键特性与研究价值

  1. 拥挤场景的视线标注
    • 与普通的 gaze 数据集(如 MPIIGaze、ETH‑XGaze)不同,ShanghaiTech Gaze 在高密度人群图像中提供视线信息,能够评估模型在遮挡、多人交叉视线等复杂环境下的鲁棒性
  2. 跨任务标注
    • 同时拥有 crowd‑counting(头部点)和 gaze(视线向量)两套标注,便于研究 多任务学习(例如共享特征提取器同时预测密度图和视线热图)。
  3. 标准化评估协议
    • 常用的评估指标包括:
      MAE / MSE(用于 crowd‑counting)。
      Angular Error(视线方向的角度误差)。
      AUC / Distance(视线热图与真实注视点的匹配度),与 GazeFollow、VideoAttentionTarget 等基准保持一致。
  4. 应用场景
    • 公共安全:在地铁站、商场等高密度场所分析人群注意力分布。
      零售分析:结合 GOO 数据集,可进一步预测顾客关注的商品类别。
      机器人导航:利用视线信息推断人类意图,提高人机协作安全性。

推荐的获取与使用步骤

  1. 确认数据访问权限
    • 访问 GitHub(或论文附录)页面,阅读 LICENSE 与使用协议。大多数学术数据集采用 CC‑BY‑4.0 或 MIT 许可,允许科研使用并要求注明来源。
  2. 下载数据
    git clone https://github.com/Desenzhou/ShanghaiTechGaze.git
    cd ShanghaiTechGaze
    # 数据通常以 .mat 或 .json 形式存放
    
  3. 加载示例(Python)
    import scipy.io as sio
    import json, os
    img_path = 'images/IMG_1.jpg'
    anno = sio.loadmat('ground_truth/GT_IMG_1.mat')   # 包含 head_center, gaze_vector 等
    # 若为 JSON
    # with open('ground_truth/IMG_1.json') as f: anno = json.load(f)
    
  4. 基准实验
    • 使用 CSRNetCANNet 等 crowd‑counting 网络作为 backbone,添加一个 gaze‑regression 分支。
      - 参考论文 “Fourier‑Guided Attention for Crowd Counting”(使用 ShanghaiTech 进行实验)。
  5. 评估
    • 对 crowd‑counting 计算 MAE / MSE;对 gaze 计算 Mean Angular Error(单位°)或 AUC(基于热图)。

参考文献(可在论文中引用)

  1. Zhang Y. et al. “Single‑image crowd counting via multi‑column CNN”, CVPR 2016 – 提供原始 ShanghaiTech 数据集。
  2. Gao J. et al. “Fourier‑Guided Attention Network for Crowd Count Estimation”, ECCV 2024 – 使用 ShanghaiTech 进行实验,展示数据规模。
  3. Zhang Q. et al. “GazeFollow: Looking at People in Images”, CVPR 2017 – 常用的视线跟随基准,可与 ShanghaiTech Gaze 对比。
  4. Tomas H. et al. “GOO: A Dataset for Gaze Object Prediction in Retail Environments”, CVPR 2021 – 另一个包含对象边框的 gaze 数据集,适合作为扩展。

温馨提示:如果在公开渠道仍未找到 ShanghaiTech Gaze 的下载链接,建议直接联系论文第一作者(通常在论文的 “Corresponding Author” 部分提供邮箱),说明科研用途并请求获取数据。大多数作者会在合理的使用范围内提供数据访问。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!