Vimeo25M是一个全面且多样化的视频数据集,包含2500万个文本-视频对
Vimeo25M是一个全面且多样化的视频数据集,包含2500万个文本-视频对。Vimeo25M数据集由上海人工智能实验室开源,这个数据集的目的是为了提高LaVie模型的性能,并且已经被广泛应用于LaVie模型的训练中,以实现高质量的文本到视频(T2V)生成。确保模型能够处理各种事件和内容类型。Vimeo25M特别重视质量、多样性和美学吸引力,这些特点使其在视频生成任务中表现出色。
该数据集不仅支持长篇视频生成,还适用于个性化视频合成等多种应用场景
ToucanTTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的一个高级文本转语音(Text-to-Speech, TTS)工具箱
Emilia数据集是一个大规模、多语言和多样化的语音生成数据集,旨在支持大规模语音生成研究。
语音降噪与增强
Handfit-3K数据集是一个专门用于虚拟试穿(Virtual Try-on)的公开数据集,主要用于任意手部姿势遮挡情况下的手部遮挡场景。该数据集由VTON-HandFit项目团队自行收集,并在多个评估中表现出色。
Llama 3 是 Meta 发布的最新大型语言模型,旨在让个人、创作者、研究人员和各种规模的企业能够负责任地试验、创新和扩展他们的想法。
MS COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。