VBench 是一个由上海人工智能实验室、南洋理工大学S-Lab、中国香港中文大学、南京大学等机构联合开发的视频生成模型评测框架,旨在为 AI 视频生成领域提供一个标准化、多维度且可扩展的评估工具。该框架通过分层评测维度和与人类感知对齐的评估方法,帮助用户快速了解不同模型的性能特点,并为技术改进提供方向。
核心功能与特点
- 多维评测体系:
- VBench 包含 16 个独立评测维度,涵盖视频质量(如时序一致性、动态程度、美学质量)、语义对齐(如物体类别、空间关系)等核心指标。
- 这些维度被进一步细分为更具体的子维度,例如“对象类”、“多个对象”、“人类动作”、“颜色”、“空间关系”、“场景”、“外观风格”、“时间风格”和“整体一致性”等。
- 支持多种场景与模型:
- 自定义评测与排行榜:
- 用户可以上传自定义视频或提示词,灵活评估模型在特定场景下的表现。
- VBench 提供了一个视频大模型排行榜,帮助用户快速了解哪个视频生成模型表现更佳。排行榜地址为:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard 。
- 与人类感知对齐:
- VBench 的评测结果与人类观感高度对齐,能为 AI 视频生成领域提供有价值的洞察和思考。
- 为了验证评估结果的准确性,VBench 进行了大规模的人类偏好注释,并通过微调视频语言模型(VLM)来提高其在特定维度上的评估能力。
- 开源与可扩展性:
评测结果与应用
- 模型表现:
- 在 VBench 的评测中,VideoCrafter-1.0 和 Show-1 在多数维度上具有相对优势,而 Gen-2 和 Pika 在视频质量方面表现突出,尤其是在时序一致性和单帧质量上。
- VBench 还发现,时序连贯性和视频动态程度之间存在权衡关系,提升两者是未来发展的关键。
- 应用场景:
- VBench 不仅适用于学术研究,也适用于工业界的产品开发和优化。例如,它可以帮助开发者评估不同模型在特定场景下的表现,从而选择最适合的模型。
- 该框架还支持评估模型的可信性,如文化、公平性、偏见和安全性。
未来发展方向
- 扩展评估维度:
- VBench-2.0 是 VBench 的升级版本,新增了 18 个评估维度,包括状态变化、多视角一致性、多样性、组成、动态空间关系、动态属性、动作顺序理解、人际互动、相机运动、复杂图、复杂景观、人体结构、人类一致性、动作合理性、实例保留等。
- 这些新增维度旨在更全面地评估视频生成模型的内在真实性,而不仅仅是表面真实感。
- 提升评估方法:
- VBench 团队计划改进评估方法,以提高评估的准确性和可靠性。例如,通过引入更先进的评估指标和算法,进一步优化模型的性能。
- 支持更多模型类型:
- 未来,VBench 将支持更多类型的视频生成模型,包括文本到视频(T2V)、图像到视频(I2V)以及多模态生成模型。
- 增强可用性:
- VBench 将通过优化用户体验和提供更详细的文档,使更多用户能够轻松使用该框架。
- 建设活跃的用户社区:
- VBench 团队计划通过举办研讨会、发布教程和鼓励社区贡献,推动视频生成领域的创新和发展。
总结
VBench 是一个全面、可扩展且与人类感知对齐的视频生成模型评测框架,旨在为 AI 视频生成领域提供标准化的评估工具。通过 16 个分层和解耦的评测维度,VBench 能够细致地评估模型的性能,并为技术改进提供方向。该框架不仅适用于学术研究,也适用于工业界的产品开发和优化。未来,VBench 将继续扩展评估维度、改进评估方法、支持更多模型类型,并建设活跃的用户社区,推动视频生成技术的发展
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!