什么是Video‑As‑Prompt(VAP)

AI解读 4小时前 硕雀
3 0

Video‑As‑Prompt(VAP)概述

Video‑As‑Prompt(VAP)是一种全新的视频生成控制范式,核心思想是把参考视频本身当作语义提示(prompt)‍,直接引导冻结的 Video Diffusion TransformerDiT)模型进行生成。该方法把视频生成任务重新表述为 in‑context generation,通过“视频‑prompt”实现统一、可扩展的语义控制。

1. 背景与动机

  • 传统视频生成往往依赖文字描述或结构化控制(如姿态、深度图),容易产生视觉伪影或需要大量任务特定的微调。
  • VAP 通过使用实际视频片段作为提示,能够捕获丰富的时空语义信息,避免了不匹配的像素级约束,同时保持模型的通用性。

2. 技术框架

关键组件 功能说明
Reference Video Prompt 将完整视频(或关键帧序列)作为语义提示,提供颜色、运动、场景等多模态信息。
Frozen DiT 采用预训练的 Video Diffusion Transformer,保持原始权重不变,确保模型的通用生成能力。
Mixture‑of‑Transformers (MoT) Expert 插件式的专家网络,负责将视频‑prompt 与 DiT 的内部表示对齐,防止灾难性遗忘。
Temporally‑biased Position Embedding 为提示检索引入时间偏置,使模型在检索上下文时不产生不合理的映射先验,提升时序一致性。

该架构实现了 “plug‑and‑play”,无需对主模型进行大规模微调,即可在不同视频生成任务上直接使用。

3. 数据支撑 – VAP‑Data

  • 为了训练和评估,作者构建了 VAP‑Data,规模超过 100 K 对视频,覆盖 100 种语义条件(如动作、风格、场景等)。
  • 数据集是目前公开的最大规模语义控制视频生成数据,为后续研究提供了统一基准。

4. 性能表现

  • 在公开的开源基准上,VAP 实现了最新的 SOTA,用户偏好率达到 38.7 %,可与商业化的条件专属模型相媲美。
  • 具备 强零样本泛化能力,能够在未见语义条件下仍保持高质量生成,支持多种下游应用(如视频编辑、内容创作、动画合成等)。

5. 关键链接

6. 与其他 “视频‑Prompt” 研究的关系

  • Promptus:将视频帧映射为 Stable Diffusion 提示,用于极低比特率的视频流传输,属于 视频‑prompt 作为压缩表示 的方向。
  • Prompt‑A‑Video:利用大型语言模型自动生成文本‑to‑video 的高质量提示,侧重 文本‑prompt 优化,而 VAP 则直接使用 视频本身 作为提示,两者在提示来源上互补。

7. 典型应用场景

  1. 内容创作:创作者上传参考视频,快速生成风格统一的衍生视频。
  2. 视频编辑:通过更换或微调参考视频,实现局部风格迁移或动作替换。
  3. 跨模态检索:利用视频‑prompt 在大规模视频库中进行语义检索。
  4. 低带宽传输:结合 Promptus 思路,将视频压缩为提示后在网络中传输,再由生成模型恢复。

小结
Video‑As‑Prompt(VAP)通过把完整视频当作语义提示,引入 Mixture‑of‑Transformers 与时间偏置位置嵌入,实现了统一、可扩展且高质量的语义控制视频生成。配套的大规模 VAP‑Data 数据集和开源实现,使其成为当前视频生成研究的热点方向,并为实际应用提供了强大的技术支撑。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!