多帧率分层训练策略(Multi-frame Rate Training Strategy) 是一种专门用于文本生成视频(Text-to-Video Generation)模型的训练方法。
它的核心目的是解决传统视频生成模型中存在的一个关键矛盾:“短片段难以展示完整动作” vs **“长片段导致难以生成高质量帧”。*
简单来说,该策略通过引入帧率(Frame Rate)Token来控制每个训练样本的运动强度和时长,使得模型能在固定长度的训练序列中有效地学习到从慢速到快速、从短时长到长时长的运动模式,从而实现了视频内容的灵活控制。
1. 核心原理与机制
该策略主要由以下两个关键机制构成:
1.1 帧率 Token 机制
模型在输入时不仅接收“文本描述”和“视觉特征”,还接收一个额外的帧率 Token。
- 作用:这个 Token 明确告诉模型需要生成“快节奏”还是“慢节奏”的视频。
- 优势:通过改变这个 Token,用户可以控制视频的快慢(即帧的变化幅度),解决了“动作过慢导致画面僵硬”或“动作过快导致模糊”的问题。
1.2 分层训练(Hierarchical Training)
训练过程被划分为两个阶段:
- 阶段一(Phase 1):模型首先在给定帧率 Token 的条件下,生成一个较短的连续帧序列(例如 3-4 帧)。此时模型学习如何将文本映射到基本的视觉动作中。
- 阶段二(Phase 2):在第一阶段的基础上,模型会对生成的帧序列进行插值或补帧。通过使用目标帧率 Token(例如想要 8 帧输出),模型在已有帧之间生成新的过渡帧,从而延长视频时长并保持连贯性。
2. 为什么需要它?
传统的视频生成模型(如早期的 CogVideo)在训练时会遇到以下难题:
- 短时长限制:如果训练样本太短(如 2-4 帧),难以捕捉到完整的“跑步”或“跳跃”等复杂动作。
- 帧率不一致:真实世界的视频帧率不一致(24fps、30fps、60fps),模型需要适应各种变化。
多帧率分层训练策略通过“从粗到细”的方式:
- 粗粒度:在低帧率下学习动作的大致轮廓(Phase 1)。
- 细粒度:在高帧率下填充细节(Phase 2)。
这种方式类似于动画制作中的“关键帧(Key Frame)”与“中间帧(In-between)”技术,使得模型生成的视频既能覆盖完整动作,又能保持高帧率下的流畅性。
3. 关联技术
该策略与其他多阶段训练技术有相似之处,但更侧重于运动控制和时间序列对齐:
- DualCamCtrl(Dual-Branch Diffusion Model):使用分阶段训练来实现 RGB 与深度模态的协同生成,但其侧重点在于几何对齐而非帧率控制。
- CogVideo:是目前公开实现该策略的代表性模型。通过该策略,CogVideo 能够在生成新闻视频或电影预览时,控制角色的跑动速度或镜头的推拉速度。
4. 关键参考文献
- CogVideo 官方技术解析(2025):详细介绍了“多帧率分层训练策略”的核心原理及其在生成视频中的应用效果。
- CogVideo 相关教程(2025):解析了该策略如何通过帧率 Token 控制生成视频的运动强度。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!