什么是InternVid数据集

AI解读 2个月前 硕雀
29 0

InternVid 是一个大规模的视频-文本数据集,专为多模态理解和生成任务而设计。它由上海人工智能实验室、南京大学、中国科学院等机构于2024年发布,旨在促进视频理解与生成领域的多模态研究。该数据集包含超过700万条视频,总时长接近76万小时,生成了2.34亿个视频片段,配有总计41亿词的详细描述。InternVid 的数据集具有广泛的覆盖范围,涵盖了16种不同场景和6000多种动作描述,适用于视频聊天机器人、个性化在线学习等应用。

InternVid 的核心贡献在于提出了一种可扩展的方法,利用大型语言模型(LLM)自主构建高质量的视频-文本数据集,并通过多尺度方法生成视频描述,以支持视频-语言表示的学习。该数据集不仅在视频理解、生成对话系统和视频到文本生成等方面具有广泛应用,还为多模态研究提供了重要的工具和资源。

InternVid 的数据集和模型可应用于视频理解、生成对话系统及视频与文本互动生成研究,为多模态视频研究提供了工具。此外,InternVid 数据集的发布和使用遵循Apache License 2.0协议,便于研究和开发。

InternVid 是一个大规模、高质量的视频-文本数据集,旨在支持多模态理解和生成任务,具有广泛的应用前景和研究价值。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!