什么是多帧率分层训练策略（Multi-frame Rate Training Strategy）

AI解读 3个月前硕雀

54 0 0

多帧率分层训练策略（Multi-frame Rate Training Strategy）‍ 是一种专门用于文本生成视频（Text-to-Video Generation）‍模型的训练方法。

它的核心目的是解决传统视频生成模型中存在的一个关键矛盾：‍“短片段难以展示完整动作”‍ vs ‍**“长片段导致难以生成高质量帧”。*

简单来说，该策略通过引入帧率（Frame Rate）Token来控制每个训练样本的运动强度和时长，使得模型能在固定长度的训练序列中有效地学习到从慢速到快速、从短时长到长时长的运动模式，从而实现了视频内容的灵活控制。

该策略主要由以下两个关键机制构成：

模型在输入时不仅接收“文本描述”和“视觉特征”，还接收一个额外的帧率 Token。

训练过程被划分为两个阶段：

阶段一（Phase 1）‍：模型首先在给定帧率 Token 的条件下，生成一个较短的连续帧序列（例如 3-4 帧）。此时模型学习如何将文本映射到基本的视觉动作中。
阶段二（Phase 2）‍：在第一阶段的基础上，模型会对生成的帧序列进行插值或补帧。通过使用目标帧率 Token（例如想要 8 帧输出），模型在已有帧之间生成新的过渡帧，从而延长视频时长并保持连贯性。

传统的视频生成模型（如早期的 CogVideo）在训练时会遇到以下难题：

多帧率分层训练策略通过“从粗到细”的方式：

这种方式类似于动画制作中的“关键帧（Key Frame）”与“中间帧（In-between）”技术，使得模型生成的视频既能覆盖完整动作，又能保持高帧率下的流畅性。

该策略与其他多阶段训练技术有相似之处，但更侧重于运动控制和时间序列对齐：

DualCamCtrl（Dual-Branch Diffusion Model）：使用分阶段训练来实现 RGB 与深度模态的协同生成，但其侧重点在于几何对齐而非帧率控制。
CogVideo：是目前公开实现该策略的代表性模型。通过该策略，CogVideo 能够在生成新闻视频或电影预览时，控制角色的跑动速度或镜头的推拉速度。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！