什么是自回归对抗后训练（AAPT）技术

AI解读 4个月前硕雀

41 0 0

自回归对抗后训练（Autoregressive Adversarial Post-Training, AAPT）是一种用于将预训练的视频扩散模型转化为高效、实时交互式视频生成器的方法。该方法旨在解决现有大规模视频生成模型在计算成本高、难以应用于实时交互场景的问题。

AAPT的核心思想

AAPT的核心在于通过对抗训练和自回归生成机制，将双向扩散模型转化为单向自回归生成器。具体来说，AAPT通过以下方式实现高效视频生成：

自回归架构：AAPT采用单次神经函数评估（1NFE）逐帧生成潜在帧，支持实时流式输出，并能够接收用户交互指令来控制下一帧的生成。这种架构类似于自回归语言模型（如GPT），即在生成每个帧时，模型会基于已生成的帧预测下一个帧的内容。
对抗训练：AAPT引入了对抗训练作为自回归生成的有效范式。通过对抗目标优化视频的真实感和长期时间一致性，AAPT能够有效减少长视频生成中的误差累积。此外，AAPT还使用了Relativistic GAN损失和近似的R1 + R2正则化，以确保生成器和判别器的稳定训练。
KV缓存技术：AAPT利用键值缓存（KV Cache）技术，结合单次前向推理，支持长时间视频生成，计算效率远超现有模型。通过滑动窗口机制，AAPT能够保持上下文的连贯性，并回收先前生成的结果作为后续输入，从而延长生成时长并维持视觉连续性。
输入回收机制：AAPT将每一帧重新用作输入，确保长视频的动作连贯性，避免了传统模型中常见的动作断裂问题。

AAPT的训练过程

AAPT的训练过程分为三个阶段：

扩散适应：在这一阶段，模型首先通过确定性蒸馏方法，使用均方误差损失训练一个蒸馏模型。教师模型使用恒定的无分类器引导（classifier-free guidance）系数和预定义的负提示生成蒸馏监督信号。
一致性蒸馏：在这一阶段，模型通过离散时间一致性蒸馏方法，进一步优化模型的性能。这一阶段的目标是确保模型在生成过程中保持一致性和稳定性。
对抗训练：在这一阶段，模型通过对抗目标进行训练，以提高生成视频的真实感和长期时间一致性。对抗训练采用交替的最小-最大游戏形式，其中判别器D分类真实样本和生成样本，而生成器G则试图生成能够欺骗判别器的样本。

AAPT的应用与优势

AAPT在多个方面展示了其优势：

实时性：AAPT能够在单个H100 GPU上实现736×416分辨率下的24fps视频流，或在8个H100 GPU上实现1280×720分辨率下的长达一分钟的视频流（1440帧）。
质量：AAPT在保持性能的同时，显著提高了生成视频的质量。通过学生强制训练方式，AAPT能够有效减少长视频生成中的误差累积。
交互性：AAPT支持实时用户交互输入，如相机移动、人物姿态等，能够实时生成虚拟人动画及场景漫游。

AAPT的局限性

尽管AAPT在多个方面表现出色，但仍存在一些局限性：

长视频训练：AAPT在长视频训练过程中仍需进一步优化，特别是在维持主体和场景一致性方面。
训练速度：AAPT在训练速度和质量控制方面仍有改进空间。
物理约束：AAPT在高频变化物体识别方面仍存在困难，需要进一步优化。
长程依赖：滑窗策略在超长视频中可能会淡化早期环境，影响生成结果的连贯性。

总结

自回归对抗后训练（AAPT）是一种创新的视频生成方法，通过对抗训练和自回归生成机制，将预训练的视频扩散模型转化为高效、实时交互式视频生成器。AAPT不仅在生成速度和质量上表现出色，还支持实时用户交互，为长视频生成提供了新的范式

AAPT技术自回归对抗后训练自回归对抗后训练技术

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！