字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

StoryMem 是字节跳动(ByteDance)与新加坡南洋理工大学(Nanyang Technological University)联合推出的一款开源 AI 视频生成框架。它的核心使命是解决 AI 视频生成中长期叙事不连贯、角色“变脸”以及画面风格割裂的问题,实现电影级的连贯性和角色一致性。

Github:https://kevin-thu.github.io/StoryMem/

为什么需要 StoryMem?

传统的 AI 视频生成模型(如扩散模型)通常基于“单镜头”或“短时序”进行训练。这导致在生成长视频多镜头切换的场景时,AI 容易忘记前面的信息,出现以下现象:

  • 角色变脸:同一个角色在不同镜头中服装、发型或面部特征突然变化。
  • 画面突变:场景光影、色调或构图风格不统一。
  • 叙事断层:长视频中前后情节逻辑不连贯,缺乏“记忆”。

StoryMem 通过引入视觉记忆机制(Memory-to-Video,M2V),赋予 AI 类似人类的长期记忆能力,让模型在生成新画面时“回头看”之前的内容,从而解决这些问题。

StoryMem 的核心技术原理

StoryMem 采用了‍“记忆到视频” (M2V) 的设计理念,核心是构建一个动态记忆库 (Dynamic Memory Bank),并通过轻量级的 LoRA 微调将记忆注入生成过程。

1. 动态记忆库 (Dynamic Memory Bank)

这是 StoryMem 的“脑子”。在生成每一个镜头(Shot)时,系统会自动提取该镜头中的关键帧(Keyframe)并存入记忆库。

  • 关键帧筛选:系统使用 CLIP 特征进行语义匹配,挑选最符合故事情节的画面;同时利用 HPSv3 等美学评分模型过滤掉模糊或画质差的帧,确保记忆库的质量。
  • 动态更新:随着视频长度的增长,系统会丢弃最早的记忆,只保留最近的关键帧(短期记忆)和全局重要的帧(长期记忆),防止记忆库过大导致信息噪声。

2. LoRA 模块注入记忆

在生成下一个镜头时,StoryMem 会将记忆库中的视觉特征与当前镜头的生成条件进行融合。

  • 潜在空间拼接:将记忆帧和当前帧都转换到相同的数学表示(潜在空间)中进行拼接,就像把不同时间拍摄的照片统一放进同一个相册中进行参考。
  • 轻量微调 (LoRA):StoryMem 只需要在原有的单镜头视频扩散模型(如 Doubao-seedance-1-0-pro)上添加约 0.7 亿个参数的 LoRA 模块,便能强制模型在视觉上保持一致,无需海量长视频数据重新训练。

3. 关键帧与记忆的衔接

生成新镜头时,StoryMem 会检索记忆库中与当前描述最匹配的帧作为“场记”(Scene Recorder),确保新画面与旧画面在角色特征、服装颜色、光影效果上保持高度一致。

实际效果与应用

StoryMem 的效果非常显著,能够生成连贯且画质优异的长视频:

  • 跨镜头一致性提升 29%:在专业的 ST-Bench 基准测试中,StoryMem 在维持角色、场景和叙事逻辑一致性方面,比传统方法提升了约 29%。
  • 多镜头长视频生成:能够自动生成时长超过 1 分钟、包含多镜头切换(如从客厅走到街道)的叙事视频,这在之前的模型中是难以实现的。
  • 广泛的商业落地:StoryMem 能显著提升广告制作效率,降低影视前期预制作成本,让独立创作者也能制作出专业级的视频内容。

总结

StoryMem 的推出可以说是 AI 视频生成技术的一次范式转变。它通过引入显式的视觉记忆机制,将原本只会“拍摄散乱片段”的 AI 转变为能“讲连贯故事”的“导演”,成功解决了长期困扰业界的角色一致性问题

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!