什么是多帧率分层训练策略(Multi-frame Rate Training Strategy)

AI解读 2个月前 硕雀
35 0

多帧率分层训练策略Multi-frame Rate Training Strategy‍ 是一种专门用于文本生成视频(Text-to-Video Generation)‍模型的训练方法。

它的核心目的是解决传统视频生成模型中存在的一个关键矛盾:‍“短片段难以展示完整动作”‍ vs ‍**“长片段导致难以生成高质量帧”。*

简单来说,该策略通过引入帧率(Frame Rate)Token来控制每个训练样本的运动强度和时长,使得模型能在固定长度的训练序列中有效地学习到从慢速到快速、从短时长到长时长的运动模式,从而实现了视频内容的灵活控制。


1. 核心原理与机制

该策略主要由以下两个关键机制构成:

1.1 帧率 Token 机制

模型在输入时不仅接收“文本描述”和“视觉特征”,还接收一个额外的帧率 Token

  • 作用:这个 Token 明确告诉模型需要生成“快节奏”还是“慢节奏”的视频。
  • 优势:通过改变这个 Token,用户可以控制视频的快慢(即帧的变化幅度),解决了“动作过慢导致画面僵硬”或“动作过快导致模糊”的问题。

1.2 分层训练(Hierarchical Training)

训练过程被划分为两个阶段

  • 阶段一(Phase 1)‍:模型首先在给定帧率 Token 的条件下,生成一个较短的连续帧序列(例如 3-4 帧)。此时模型学习如何将文本映射到基本的视觉动作中。
  • 阶段二(Phase 2)‍:在第一阶段的基础上,模型会对生成的帧序列进行插值补帧。通过使用目标帧率 Token(例如想要 8 帧输出),模型在已有帧之间生成新的过渡帧,从而延长视频时长并保持连贯性。

2. 为什么需要它?

传统的视频生成模型(如早期的 CogVideo)在训练时会遇到以下难题:

  • 短时长限制:如果训练样本太短(如 2-4 帧),难以捕捉到完整的“跑步”或“跳跃”等复杂动作。
  • 帧率不一致:真实世界的视频帧率不一致(24fps、30fps、60fps),模型需要适应各种变化。

多帧率分层训练策略通过“从粗到细”的方式:

  1. 粗粒度:在低帧率下学习动作的大致轮廓(Phase 1)。
  2. 细粒度:在高帧率下填充细节(Phase 2)。

这种方式类似于动画制作中的“关键帧(Key Frame)”与“中间帧(In-between)”技术,使得模型生成的视频既能覆盖完整动作,又能保持高帧率下的流畅性。


3. 关联技术

该策略与其他多阶段训练技术有相似之处,但更侧重于运动控制时间序列对齐

  • DualCamCtrl(Dual-Branch Diffusion Model):使用分阶段训练来实现 RGB 与深度模态的协同生成,但其侧重点在于几何对齐而非帧率控制。
  • CogVideo:是目前公开实现该策略的代表性模型。通过该策略,CogVideo 能够在生成新闻视频或电影预览时,控制角色的跑动速度或镜头的推拉速度。

4. 关键参考文献

  • CogVideo 官方技术解析(2025):详细介绍了“多帧率分层训练策略”的核心原理及其在生成视频中的应用效果。
  • CogVideo 相关教程(2025):解析了该策略如何通过帧率 Token 控制生成视频的运动强度。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!