CelebV‑Text数据集概览
| 项目 | 内容 | 说明 |
|---|---|---|
| 全称 | CelebV‑Text: A Large‑Scale Facial Text‑Video Dataset | |
| 发布机构 | OpenXDLab(开源平台) | |
| 数据规模 | 约 70 000 条野外拍摄的人脸视频片段,累计时长约 279 小时;每条视频配有 20 条自然语言描述 | |
| 视频分辨率 & 时长 | 大多数片段为 512 × 512,时长 5‑15 秒不等;部分长片段超过 15 秒 | |
| 文本属性 | 每段文本覆盖 6 大类属性: • 40 种通用外观 • 5 种细节外观 • 6 种光照条件 • 37 种动作 • 8 种情绪 • 6 种光照方向 |
|
| 采集方式 | 从互联网公开视频中抓取,采用半自动策略生成高质量文本,确保文本与视频在静态与动态属性上的高度对应 | |
| 使用许可 | 非商业研究免费开放,需遵守数据集协议;所有视频均来源于公开网络,版权归原作者所有 | |
| 主要用途 | - 人脸文本到视频生成(Text‑to‑Video) - 视频‑文本检索与对齐 - 多模态学习、跨模态生成基准 - 人脸表情、动作、光照等细粒度属性研究 |
|
| 基准与评估 | 数据集自带标准评估协议(FVD、CSIM、LPIPS 等),便于统一比较不同模型的生成质量 | |
| 获取方式 | - GitHub 项目主页:<https://github.com/CelebV-Text/CelebV-Text >(提供下载脚本、数据说明) - 论文(arXiv):<https://arxiv.org/abs/2303.14717 >(完整技术细节) |
详细介绍
- 数据构成
CelebV‑Text 包含 70 k 条“野外”人脸视频,即在自然光照、真实场景下拍摄的短片。每段视频均配有 20 条由半自动文本生成系统产生的描述,这些描述覆盖了人物的外观、表情、动作、光照等多维度信息,使得文本与视觉内容的对应关系非常细致。 - 文本生成策略
- 首先对视频进行属性标注(外观、动作、情绪等)。
- 采用模板 + 语言模型的方式生成自然语言描述,确保每条文本既具可读性,又能准确反映视频中的细节。
- 通过人工抽检和自动质量过滤,剔除低质量或不匹配的文本对。
- 技术价值
- 解决了此前人脸视频生成领域缺乏大规模、文本对齐数据的问题。
- 为 Text‑to‑Video、Video‑to‑Text、跨模态检索等任务提供了统一、可复现的基准。
- 数据集的多属性标签支持细粒度控制(如指定光照方向、情绪变化),推动了可控生成技术的发展。
- 基准测试
数据集官方提供了 FVD(Frechet Video Distance)、CSIM(Cosine Similarity)、LPIPS 等评价指标的实现代码,研究者可以直接使用这些指标对生成模型进行客观评估,促进了不同方法的公平比较。 - 下载与使用
- 在 GitHub 页面提供了 download.sh 脚本,可一次性下载全部视频和对应文本。
- 数据使用前需阅读并同意《数据使用协议》,仅限学术研究、非商业用途。
- 若需要仅下载部分子集(如特定属性或特定分辨率),可在脚本中自行筛选。
推荐阅读与资源
- 原始论文(详细方法、实验结果):[2303.14717] CelebV-Text: A Large-Scale Facial Text-Video Dataset
- GitHub 项目(代码、下载脚本、数据说明):https://github.com/celebv-text/CelebV-Text
- 数据集概览页面(快速了解属性分布、统计信息):
小结:CelebV‑Text 是目前公开的、规模最大、属性最丰富的人脸文本‑视频配对数据集,为推动文本驱动的视频生成和多模态理解提供了坚实的资源基础。研究者可通过上述链接获取数据并依据官方基准进行实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!