CelebV‑HQ 数据集概述
CelebV‑HQ(High‑Quality Celebrity Video)是由上海人工智能实验室、商汤科技等机构联合发布的大规模视频人脸属性数据集,专为面部视频生成、属性编辑、表情迁移等多模态视觉任务设计。
| 项目 | 内容 |
|---|---|
| 规模 | 35 666 条视频片段,累计约 65 小时视频时长 |
| 身份数 | 15 653 位不同明星/名人 |
| 分辨率 | 最低 512 × 512 像素,部分片段更高分辨率 |
| 属性标注 | 83 项手工标注属性,涵盖 40 项外观属性、35 项动作属性、8 项情感属性 |
| 标注形式 | 每段视频的每帧均提供属性向量,属性包括外观(如性别、年龄、肤色、发型等)、动作(如笑、皱眉、喝水等)以及情感(中性、愤怒、惊讶等) |
| 数据来源 | 通过 YouTube 自动抓取并经严格筛选、去噪、对齐后得到的高质量剪辑 |
| 使用许可 | 仅限学术研究(非商业),需遵守数据使用协议,禁止复制、商业传播 |
| 适用任务 | - 无条件视频生成 - 视频面部属性编辑 - 表情迁移 - 多模态学习(视频‑文本、视频‑音频)等 |
| 下载方式 | 官方 GitHub 仓库提供下载脚本和数据链接,亦可通过项目主页获取详细说明 |
关键特性
- 高质量与多样性
- 视频分辨率统一不低于 512 × 512,保证细节保留。
- 包含多种族、不同年龄段、丰富的头部姿态和光照变化,较 CelebA‑HQ 在姿态与面部比例上更具多样性。
- 时间一致性
- 每段剪辑长度在 5‑15 秒之间,属性在时间轴上保持平滑连续,适合学习时序模型。
- 丰富的属性体系
- 83 项属性覆盖面广,能够支持细粒度的属性控制与编辑实验。例如,可在同一身份下实现“笑‑转‑皱眉”或“中性‑转‑惊讶”等细致变化。
- 完整的工具链
- 项目提供从 YouTube 下载、帧抽取、对齐、属性标注到数据打包的全流程脚本,降低研究者的前期准备成本。
主要参考文献与链接
- 论文:CelebV‑HQ: A Large‑Scale Video Facial Attributes Dataset(Zhu H., Wu W., et al., ECCV 2022)
- GitHub 仓库(代码、下载脚本、数据说明): https://github.com/CelebV-HQ/CelebV-HQ
- 项目官网(数据概览、使用协议、下载入口): https://celebv-hq.github.io/
- Papers with Code 页面(数据集概览、关联任务与基准结果): https://paperswithcode.com/dataset/celebv-hq
使用建议
- 研究实验:可直接使用官方提供的
download.sh脚本获取全部视频片段,配合属性 JSON 文件进行属性驱动的生成或编辑实验。 - 模型评估:在视频生成(如 StyleGAN‑V、VQ‑VAE‑2)或属性编辑(如 MARLIN)任务中,使用 CelebV‑HQ 进行定量评估(FVD、FID)和定性对比。
- 跨模态学习:结合文本描述或音频信号,可构建视频‑文本、视频‑音频对齐任务,进一步提升多模态生成能力。
注意:数据仅限学术研究使用,任何商业化或未经授权的再分发均违背数据使用协议,请务必遵守官方许可条款。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!