OpenVid-1M 是一个大规模高质量的文本到视频生成(Text-to-Video, T2V)数据集,旨在解决当前文本到视频生成研究中两个主要问题:缺乏高质量的开源数据集和对文本信息利用不足的问题。该数据集由南京大学、字节跳动和南开大学联合创建,并于2024年发布。
数据集特点与内容
OpenVid-1M 包含超过100万个文本-视频对,每个视频片段具有详细的字幕和高质量的视觉内容。数据集中的视频分辨率至少为512×512像素,远高于许多现有视频数据集(如WebVid-10M和Panda-70M)。其中,433K个视频为1080P高清分辨率,形成子集OpenVidHD-0.4M。该数据集在美学、清晰度和分辨率方面具有高质量,适用于多种视频生成任务,如视频超分辨率、帧插值、视频扩散模型等。
应用与影响
OpenVid-1M 被广泛应用于多个研究领域,包括视频生成模型(如多模态视频扩散变换器MVDiT)、视频理解与生成、3D/4D生成、视频着色等。该数据集在Hugging Face平台下载量超过21万次,位列前1%,并被多个研究论文引用。此外,OpenVid-1M 也被用于训练和优化其他视频数据集的质量,提升视频生成效果。
数据集的创建与挑战
OpenVid-1M 的创建过程严格筛选了视频的美学、时间一致性、运动差异和清晰度,以确保高质量。该数据集的创建解决了现有数据集质量低或规模过大的问题,推动了高清晰度视频生成技术的发展。
总结
OpenVid-1M 是一个高质量、大规模的文本到视频生成数据集,为文本到视频生成研究提供了高质量的数据支持,推动了相关领域的技术进步和应用发展
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!