什么是CUHK‑03数据集

CUHK‑03 数据集概览

项目 内容 说明
全称 CUHK‑03 Person Re‑Identification Dataset 香港中文大学(CUHK)视觉实验室发布,用于行人再识别(Person Re‑ID)研究
数据规模 1 360(或 1 467)个行人身份,约 13 164–14 097 张图像
摄像头 5 对(共 10 台)非重叠摄像头,分别位于 5 个不同场景
图像来源 每个行人在两台摄像头下拍摄,平均约 4.8 张图/摄像头
标注方式 手工标注(手动裁剪的行人框)
自动检测(基于 DPM 检测器的框)
训练/测试划分 常用两种协议:
1. 原始协议:767 ID 用于训练,700 ID 用于测试(每类均有 query 与 gallery)
2. 新划分(new‑protocol)‍:提供 cuhk03_new_protocol_config_labeled.mat 与 cuhk03_new_protocol_config_detected.mat,分别对应手工标注和检测标注
下载链接 官方页面:http://www.ee.cuhk.edu.hk/\~xgwang/CUHK_identification.html (提供 cuhk03_release.zip
镜像或数据集托管平台(如 SelectDataset、GitHub)也提供相同文件的下载入口
使用许可 仅限学术研究,需在论文或项目中注明数据来源与引用

1. 数据集背景与意义

CUHK‑03 是首批满足深度学习训练需求的行人再识别数据集,规模远大于早期的 VIPeR、CUHK01 等,因而成为基准数据集之一。它提供了 手工标注 与 自动检测 两套框,帮助研究者评估模型在理想标注与真实检测场景下的鲁棒性

2. 关键技术指标

  • 身份数:约 1 360(部分文献记为 1 467)个唯一行人。
  • 图像总数:13 164(手工标注)或 14 097(检测标注)张。
  • 摄像头布局:5 对摄像头,形成 10 条视角对,覆盖不同光照、姿态与遮挡情况。
  • 标注类型:手工裁剪框(质量更高)与 DPM 检测框(更贴近实际部署)。

3. 常用评估协议

协议 训练集 测试集(Query / Gallery) 备注
原始协议(Li et al., 2014) 767 ID(约 7 368 张) 700 ID(1 400 Query + 5 328 Gallery) 采用手工标注或检测标注两套数据
新协议(Person‑Re‑Ranking) cuhk03_new_protocol_config_labeled.mat(手工)或 cuhk03_new_protocol_config_detected.mat(检测) 同上 便于统一实验复现

4. 关键论文与引用

  • 原始论文
    • Li, W., Zhao, R., Xiao, T., & Wang, X. (2014). Deepreid: Deep filter pairing neural network for person re-identification.(提出 CUHK‑03)
    • Li, W., & Wang, X. (2013). Locally Aligned Feature Transforms across Views. CVPR 2013(数据集设计背景)
  • 后续基准评测
    • Chen, Y., et al. (2018). Towards Good Practices on Building Effective CNN Baseline Model for Person Re‑identification(使用 CUHK‑03 新划分)
    • Zheng, L., et al. (2017). Pose‑Invariant Embedding for Deep Person Re‑Identification(报告 CUHK‑03 统计)

5. 下载与使用步骤(示例)

  1. 访问官方页面 http://www.ee.cuhk.edu.hk/\~xgwang/CUHK_identification.html ,下载 cuhk03_release.zip
  2. 解压后得到 cuhk03_release 文件夹,内部包含原始图像与标注文件。
  3. 若使用新协议,下载 cuhk03_new_protocol_config_labeled.mat 与 cuhk03_new_protocol_config_detected.mat 并放置于同级目录(参考 GitHub 项目 AlignedReID++ 的目录结构)。
  4. 在代码中读取 .mat 文件获取训练/测试划分,随后即可进行模型训练或评估。

6. 在学术研究中的常见应用

  • 基准评测:几乎所有行人再识别的最新深度模型(如 PCB、AGW、TransReID 等)都会在 CUHK‑03 上报告 Rank‑1、Rank‑5、mAP 等指标,以对比不同方法的鲁棒性。
  • 跨域迁移:利用 CUHK‑03 的手工标注与检测标注两套数据,研究模型在理想标注与真实检测之间的性能差距。
  • 数据增强与生成:部分工作使用 GAN 生成额外的行人图像,以扩充 CUHK‑03 的训练集,提高模型的泛化能力

总结
CUHK‑03 是行人再识别领域的经典大规模数据集,提供手工与自动两种标注,覆盖 5 对摄像头、约 14 k 张图像,已成为评估深度学习模型的重要基准。通过官方链接即可获取完整数据,配套的 .mat 划分文件帮助研究者快速复现已有实验并开展新方法的比较。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!