什么是Video‑As‑Prompt（VAP）

AI解读 4小时前硕雀

3 0 0

Video‑As‑Prompt（VAP）是一种全新的视频生成控制范式，核心思想是把参考视频本身当作语义提示（prompt）‍，直接引导冻结的 Video Diffusion Transformer（DiT）模型进行生成。该方法把视频生成任务重新表述为 in‑context generation，通过“视频‑prompt”实现统一、可扩展的语义控制。

1. 背景与动机

传统视频生成往往依赖文字描述或结构化控制（如姿态、深度图），容易产生视觉伪影或需要大量任务特定的微调。
VAP 通过使用实际视频片段作为提示，能够捕获丰富的时空语义信息，避免了不匹配的像素级约束，同时保持模型的通用性。

2. 技术框架

关键组件	功能说明
Reference Video Prompt	将完整视频（或关键帧序列）作为语义提示，提供颜色、运动、场景等多模态信息。
Frozen DiT	采用预训练的 Video Diffusion Transformer，保持原始权重不变，确保模型的通用生成能力。
Mixture‑of‑Transformers (MoT) Expert	插件式的专家网络，负责将视频‑prompt 与 DiT 的内部表示对齐，防止灾难性遗忘。
Temporally‑biased Position Embedding	为提示检索引入时间偏置，使模型在检索上下文时不产生不合理的映射先验，提升时序一致性。

该架构实现了 “plug‑and‑play”，无需对主模型进行大规模微调，即可在不同视频生成任务上直接使用。

3. 数据支撑 – VAP‑Data

为了训练和评估，作者构建了 VAP‑Data，规模超过 100 K 对视频，覆盖 100 种语义条件（如动作、风格、场景等）。
该数据集是目前公开的最大规模语义控制视频生成数据，为后续研究提供了统一基准。

4. 性能表现

在公开的开源基准上，VAP 实现了最新的 SOTA，用户偏好率达到 38.7 %，可与商业化的条件专属模型相媲美。
具备 强零样本泛化能力，能够在未见语义条件下仍保持高质量生成，支持多种下游应用（如视频编辑、内容创作、动画合成等）。

5. 关键链接

论文（arXiv）‍： https://www.arxiv.org/abs/2510.20888
GitHub 代码仓库： https://github.com/bytedance/Video-As-Prompt
HuggingFace 论文页面： https://huggingface.co/papers/2510.20888

6. 与其他 “视频‑Prompt” 研究的关系

Promptus：将视频帧映射为 Stable Diffusion 提示，用于极低比特率的视频流传输，属于 视频‑prompt 作为压缩表示 的方向。
Prompt‑A‑Video：利用大型语言模型自动生成文本‑to‑video 的高质量提示，侧重 文本‑prompt 优化，而 VAP 则直接使用 视频本身 作为提示，两者在提示来源上互补。

7. 典型应用场景

内容创作：创作者上传参考视频，快速生成风格统一的衍生视频。
视频编辑：通过更换或微调参考视频，实现局部风格迁移或动作替换。
跨模态检索：利用视频‑prompt 在大规模视频库中进行语义检索。
低带宽传输：结合 Promptus 思路，将视频压缩为提示后在网络中传输，再由生成模型恢复。

小结
Video‑As‑Prompt（VAP）通过把完整视频当作语义提示，引入 Mixture‑of‑Transformers 与时间偏置位置嵌入，实现了统一、可扩展且高质量的语义控制视频生成。配套的大规模 VAP‑Data 数据集和开源实现，使其成为当前视频生成研究的热点方向，并为实际应用提供了强大的技术支撑。

Video‑As‑Prompt

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！