什么是CelebV-Text数据集

AI解读 4个月前硕雀

17 0 0

项目	内容	说明
全称	CelebV‑Text: A Large‑Scale Facial Text‑Video Dataset
发布机构	OpenXDLab（开源平台）
数据规模	约 70 000 条野外拍摄的人脸视频片段，累计时长约 279 小时；每条视频配有 20 条自然语言描述
视频分辨率 & 时长	大多数片段为 512 × 512，时长 5‑15 秒不等；部分长片段超过 15 秒
文本属性	每段文本覆盖 6 大类属性： • 40 种通用外观 • 5 种细节外观 • 6 种光照条件 • 37 种动作 • 8 种情绪 • 6 种光照方向
采集方式	从互联网公开视频中抓取，采用半自动策略生成高质量文本，确保文本与视频在静态与动态属性上的高度对应
使用许可	非商业研究免费开放，需遵守数据集协议；所有视频均来源于公开网络，版权归原作者所有
主要用途	- 人脸文本到视频生成（Text‑to‑Video） - 视频‑文本检索与对齐 - 多模态学习、跨模态生成基准 - 人脸表情、动作、光照等细粒度属性研究
基准与评估	数据集自带标准评估协议（FVD、CSIM、LPIPS 等），便于统一比较不同模型的生成质量
获取方式	- GitHub 项目主页：<https://github.com/CelebV-Text/CelebV-Text >（提供下载脚本、数据说明） - 论文（arXiv）‍：<https://arxiv.org/abs/2303.14717 >（完整技术细节）

详细介绍

数据构成
CelebV‑Text 包含 70 k 条“野外”人脸视频，即在自然光照、真实场景下拍摄的短片。每段视频均配有 20 条由半自动文本生成系统产生的描述，这些描述覆盖了人物的外观、表情、动作、光照等多维度信息，使得文本与视觉内容的对应关系非常细致。
文本生成策略
- 首先对视频进行属性标注（外观、动作、情绪等）。
- 采用模板 + 语言模型的方式生成自然语言描述，确保每条文本既具可读性，又能准确反映视频中的细节。
- 通过人工抽检和自动质量过滤，剔除低质量或不匹配的文本对。
技术价值
- 解决了此前人脸视频生成领域缺乏大规模、文本对齐数据的问题。
- 为 Text‑to‑Video、Video‑to‑Text、跨模态检索等任务提供了统一、可复现的基准。
- 数据集的多属性标签支持细粒度控制（如指定光照方向、情绪变化），推动了可控生成技术的发展。
基准测试
数据集官方提供了 FVD（Frechet Video Distance）‍、CSIM（Cosine Similarity）‍、LPIPS 等评价指标的实现代码，研究者可以直接使用这些指标对生成模型进行客观评估，促进了不同方法的公平比较。
下载与使用
- 在 GitHub 页面提供了 download.sh 脚本，可一次性下载全部视频和对应文本。
- 数据使用前需阅读并同意《数据使用协议》，仅限学术研究、非商业用途。
- 若需要仅下载部分子集（如特定属性或特定分辨率），可在脚本中自行筛选。

什么是CelebV-Text数据集

详细介绍

推荐阅读与资源

什么是RAVDESS数据集

什么是CelebV-HQ数据集