OpenHumanVid 是一个大规模、高质量的人类中心视频数据集,旨在提升人类中心视频生成的效果。该数据集由多个研究机构和学者共同开发,发表于2024年11月27日。OpenHumanVid 数据集的特点包括:
- 大规模与高质量:该数据集包含5200万个视频片段,总时长70600小时,经过严格筛选后保留1320万个高质量片段。这些视频片段均附有详细文本描述、人体骨架序列和语音音频等补充数据。
- 多模态数据:OpenHumanVid 数据集不仅包含视频内容,还提供了精确的字幕、人体动作、表情、场景细节以及骨骼序列和语音音频等多模态数据。这些数据为研究人员和开发者提供了丰富的资源,用于视频生成、人机交互、情感分析和智能监控等应用。
- 数据处理与质量控制:在数据集的构建过程中,采用了先进的预处理和后处理技术,包括视频解码、裁剪、分割、质控筛选等步骤,以确保字幕与视频内容高度匹配。此外,数据集还通过规则过滤策略和SLAM方法提取人体和相机运动标注,以增强数据的多样性和真实性。
- 应用场景:OpenHumanVid 数据集为人类中心视频生成领域带来了新的可能性。研究者可以利用该数据集进行视频生成、人机交互、情感分析和智能监控等应用。此外,该数据集还支持基于扩散变换器架构的扩展方法,并在该数据集上进行预训练,以提升生成视频的评估指标。
- 数据来源与获取方式:OpenHumanVid 数据集的来源为影视作品,经过预处理和质量过滤,文本描述由多个模型生成并格式化。用户如需下载该数据集,需填写相关表格并提供准确的信息,以便获取下载链接。
OpenHumanVid 数据集是一个高质量、多模态、大规模的人类中心视频数据集,为人类中心视频生成和相关研究提供了重要的资源和支持。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!