SemanticGen 是由快手科技(Kuaishou)Kling团队联合多家顶尖学术机构(包括浙江大学、香港中文大学、大连理工大学、华中科技大学等)研发的一种基于语义空间的视频生成模型。该模型在2024年12月发布(arXiv:2512.20619v1),标志着AI视频生成技术从“像素空间”向“语义空间”迈进的关键一步。
以下是对SemanticGen的详细介绍:
1. 核心创新:语义空间生成(Semantic Space Generation)
传统的视频生成模型通常直接在像素(Pixel)或VAE潜在空间(Latent Space)中进行学习和生成,这种方法虽然能产生高质量画面,但计算成本极高,特别是生成长视频时,计算量呈几何级数增长,导致生成过程非常缓慢。
SemanticGen突破性地提出了在高层语义空间中生成视频的思路:
- 高层规划:首先在一个高度压缩的语义空间中生成视频的大致结构和布局。这类似于先画出一幅抽象画,确定整体的构图和颜色搭配。
- 细节填充:然后再在这个语义框架的指导下,生成具体的像素细节。这样不仅加速了生成过程,还能保持全局内容的一致性。
优势:相比于传统方法,SemanticGen在生成长视频(如一整分钟)的速度更快,计算资源消耗更低,且不易出现画面崩溃(Flicker)或内容不连贯的现象。
2. 技术架构:双阶段扩散模型(Two-Stage Diffusion)
SemanticGen采用了两阶段的扩散模型来实现视频生成:
- 第一阶段(语义特征生成):一个扩散模型负责生成紧凑的语义视频特征,这些特征定义了视频的全局布局(例如场景切换、主体运动轨迹)。
- 第二阶段(像素生成):另一个扩散模型在条件下(Conditioned on)生成VAE潜在向量,最终通过VAE解码器生成最终的视频输出。
3. 主要成果与特点
- 高质量长视频:能够生成高达1分钟的长视频,这在当前AI视频生成技术中是一个重要的突破。
- 高保真度:实验结果显示,SemanticGen在生成高质量视频方面,显著优于现有的最先进模型(SOTA approaches)和强基准模型。
- 跨模态协同:作为快手Kling团队的一部分,这项技术可能与快手的文生视频(Text-to-Video)、图生视频(Image-to-Video)以及视频续写(Video Continuation)等功能深度集成,服务于内容创作者。
4.相关链接
-
论文:https://arxiv.org/pdf/2512.20619v1.pdf -
项目: https://jianhongbai.github.io/SemanticGen
5. 项目意义
SemanticGen的发布标志着AI视频生成进入了一个新的时代——从“像素层面”的盲目填充,转向了“语义层面”的智能规划。这不仅有助于解决生成效率问题,也为AI创作提供了更高层次的思维逻辑,能更好地满足用户对“情节连贯性”和“内容一致性”的高要求。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!