自回归对抗后训练(Autoregressive Adversarial Post-Training, AAPT)是一种用于将预训练的视频扩散模型转化为高效、实时交互式视频生成器的方法。该方法旨在解决现有大规模视频生成模型在计算成本高、难以应用于实时交互场景的问题。
AAPT的核心思想
AAPT的核心在于通过对抗训练和自回归生成机制,将双向扩散模型转化为单向自回归生成器。具体来说,AAPT通过以下方式实现高效视频生成:
- 自回归架构:AAPT采用单次神经函数评估(1NFE)逐帧生成潜在帧,支持实时流式输出,并能够接收用户交互指令来控制下一帧的生成。这种架构类似于自回归语言模型(如GPT),即在生成每个帧时,模型会基于已生成的帧预测下一个帧的内容。
- 对抗训练:AAPT引入了对抗训练作为自回归生成的有效范式。通过对抗目标优化视频的真实感和长期时间一致性,AAPT能够有效减少长视频生成中的误差累积。此外,AAPT还使用了Relativistic GAN损失和近似的R1 + R2正则化,以确保生成器和判别器的稳定训练。
- KV缓存技术:AAPT利用键值缓存(KV Cache)技术,结合单次前向推理,支持长时间视频生成,计算效率远超现有模型。通过滑动窗口机制,AAPT能够保持上下文的连贯性,并回收先前生成的结果作为后续输入,从而延长生成时长并维持视觉连续性。
- 输入回收机制:AAPT将每一帧重新用作输入,确保长视频的动作连贯性,避免了传统模型中常见的动作断裂问题。
AAPT的训练过程
AAPT的训练过程分为三个阶段:
- 扩散适应:在这一阶段,模型首先通过确定性蒸馏方法,使用均方误差损失训练一个蒸馏模型。教师模型使用恒定的无分类器引导(classifier-free guidance)系数和预定义的负提示生成蒸馏监督信号。
- 一致性蒸馏:在这一阶段,模型通过离散时间一致性蒸馏方法,进一步优化模型的性能。这一阶段的目标是确保模型在生成过程中保持一致性和稳定性。
- 对抗训练:在这一阶段,模型通过对抗目标进行训练,以提高生成视频的真实感和长期时间一致性。对抗训练采用交替的最小-最大游戏形式,其中判别器D分类真实样本和生成样本,而生成器G则试图生成能够欺骗判别器的样本。
AAPT的应用与优势
AAPT在多个方面展示了其优势:
- 实时性:AAPT能够在单个H100 GPU上实现736×416分辨率下的24fps视频流,或在8个H100 GPU上实现1280×720分辨率下的长达一分钟的视频流(1440帧)。
- 质量:AAPT在保持性能的同时,显著提高了生成视频的质量。通过学生强制训练方式,AAPT能够有效减少长视频生成中的误差累积。
- 交互性:AAPT支持实时用户交互输入,如相机移动、人物姿态等,能够实时生成虚拟人动画及场景漫游。
AAPT的局限性
尽管AAPT在多个方面表现出色,但仍存在一些局限性:
- 长视频训练:AAPT在长视频训练过程中仍需进一步优化,特别是在维持主体和场景一致性方面。
- 训练速度:AAPT在训练速度和质量控制方面仍有改进空间。
- 物理约束:AAPT在高频变化物体识别方面仍存在困难,需要进一步优化。
- 长程依赖:滑窗策略在超长视频中可能会淡化早期环境,影响生成结果的连贯性。
总结
自回归对抗后训练(AAPT)是一种创新的视频生成方法,通过对抗训练和自回归生成机制,将预训练的视频扩散模型转化为高效、实时交互式视频生成器。AAPT不仅在生成速度和质量上表现出色,还支持实时用户交互,为长视频生成提供了新的范式
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!