快手Kling团队推出 SemanticGen

AI资讯 2个月前硕雀

24 0 0

SemanticGen 是由快手科技（Kuaishou）Kling团队联合多家顶尖学术机构（包括浙江大学、香港中文大学、大连理工大学、华中科技大学等）研发的一种基于语义空间的视频生成模型。该模型在2024年12月发布（arXiv:2512.20619v1），标志着AI视频生成技术从“像素空间”向“语义空间”迈进的关键一步。

以下是对SemanticGen的详细介绍：

1. 核心创新：语义空间生成（Semantic Space Generation）

传统的视频生成模型通常直接在像素（Pixel）或VAE 潜在空间（Latent Space）中进行学习和生成，这种方法虽然能产生高质量画面，但计算成本极高，特别是生成长视频时，计算量呈几何级数增长，导致生成过程非常缓慢。

SemanticGen突破性地提出了在高层语义空间中生成视频的思路：

高层规划：首先在一个高度压缩的语义空间中生成视频的大致结构和布局。这类似于先画出一幅抽象画，确定整体的构图和颜色搭配。
细节填充：然后再在这个语义框架的指导下，生成具体的像素细节。这样不仅加速了生成过程，还能保持全局内容的一致性。

优势：相比于传统方法，SemanticGen在生成长视频（如一整分钟）的速度更快，计算资源消耗更低，且不易出现画面崩溃（Flicker）或内容不连贯的现象。

2. 技术架构：双阶段扩散模型（Two-Stage Diffusion）

SemanticGen采用了两阶段的扩散模型来实现视频生成：

第一阶段（语义特征生成）‍：一个扩散模型负责生成紧凑的语义视频特征，这些特征定义了视频的全局布局（例如场景切换、主体运动轨迹）。
第二阶段（像素生成）‍：另一个扩散模型在条件下（Conditioned on）生成VAE潜在向量，最终通过VAE解码器生成最终的视频输出。

3. 主要成果与特点

高质量长视频：能够生成高达1分钟的长视频，这在当前AI视频生成技术中是一个重要的突破。
高保真度：实验结果显示，SemanticGen在生成高质量视频方面，显著优于现有的最先进模型（SOTA approaches）和强基准模型。
跨模态协同：作为快手Kling团队的一部分，这项技术可能与快手的文生视频（Text-to-Video）、图生视频（Image-to-Video）以及视频续写（Video Continuation）等功能深度集成，服务于内容创作者。

4.相关链接

论文：https://arxiv.org/pdf/2512.20619v1.pdf
项目: https://jianhongbai.github.io/SemanticGen

5. 项目意义

SemanticGen的发布标志着AI视频生成进入了一个新的时代——从“像素层面”的盲目填充，转向了“语义层面”的智能规划。这不仅有助于解决生成效率问题，也为AI创作提供了更高层次的思维逻辑，能更好地满足用户对“情节连贯性”和“内容一致性”的高要求。

SemanticGen

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！