Video‑As‑Prompt(VAP)概述
Video‑As‑Prompt(VAP)是一种全新的视频生成控制范式,核心思想是把参考视频本身当作语义提示(prompt),直接引导冻结的 Video Diffusion Transformer(DiT)模型进行生成。该方法把视频生成任务重新表述为 in‑context generation,通过“视频‑prompt”实现统一、可扩展的语义控制。
1. 背景与动机
- 传统视频生成往往依赖文字描述或结构化控制(如姿态、深度图),容易产生视觉伪影或需要大量任务特定的微调。
- VAP 通过使用实际视频片段作为提示,能够捕获丰富的时空语义信息,避免了不匹配的像素级约束,同时保持模型的通用性。
2. 技术框架
| 关键组件 | 功能说明 |
|---|---|
| Reference Video Prompt | 将完整视频(或关键帧序列)作为语义提示,提供颜色、运动、场景等多模态信息。 |
| Frozen DiT | 采用预训练的 Video Diffusion Transformer,保持原始权重不变,确保模型的通用生成能力。 |
| Mixture‑of‑Transformers (MoT) Expert | 插件式的专家网络,负责将视频‑prompt 与 DiT 的内部表示对齐,防止灾难性遗忘。 |
| Temporally‑biased Position Embedding | 为提示检索引入时间偏置,使模型在检索上下文时不产生不合理的映射先验,提升时序一致性。 |
该架构实现了 “plug‑and‑play”,无需对主模型进行大规模微调,即可在不同视频生成任务上直接使用。
3. 数据支撑 – VAP‑Data
- 为了训练和评估,作者构建了 VAP‑Data,规模超过 100 K 对视频,覆盖 100 种语义条件(如动作、风格、场景等)。
- 该数据集是目前公开的最大规模语义控制视频生成数据,为后续研究提供了统一基准。
4. 性能表现
- 在公开的开源基准上,VAP 实现了最新的 SOTA,用户偏好率达到 38.7 %,可与商业化的条件专属模型相媲美。
- 具备 强零样本泛化能力,能够在未见语义条件下仍保持高质量生成,支持多种下游应用(如视频编辑、内容创作、动画合成等)。
5. 关键链接
- 论文(arXiv): https://www.arxiv.org/abs/2510.20888
- GitHub 代码仓库: https://github.com/bytedance/Video-As-Prompt
- HuggingFace 论文页面: https://huggingface.co/papers/2510.20888
6. 与其他 “视频‑Prompt” 研究的关系
- Promptus:将视频帧映射为 Stable Diffusion 提示,用于极低比特率的视频流传输,属于 视频‑prompt 作为压缩表示 的方向。
- Prompt‑A‑Video:利用大型语言模型自动生成文本‑to‑video 的高质量提示,侧重 文本‑prompt 优化,而 VAP 则直接使用 视频本身 作为提示,两者在提示来源上互补。
7. 典型应用场景
- 内容创作:创作者上传参考视频,快速生成风格统一的衍生视频。
- 视频编辑:通过更换或微调参考视频,实现局部风格迁移或动作替换。
- 跨模态检索:利用视频‑prompt 在大规模视频库中进行语义检索。
- 低带宽传输:结合 Promptus 思路,将视频压缩为提示后在网络中传输,再由生成模型恢复。
小结
Video‑As‑Prompt(VAP)通过把完整视频当作语义提示,引入 Mixture‑of‑Transformers 与时间偏置位置嵌入,实现了统一、可扩展且高质量的语义控制视频生成。配套的大规模 VAP‑Data 数据集和开源实现,使其成为当前视频生成研究的热点方向,并为实际应用提供了强大的技术支撑。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!