美团推出虚拟人视频生成模型 LongCat-Video-Avatar

AI资讯 2小时前 硕雀
2 0

美团 LongCat‑Video‑Avatar 综述


1. 背景与发布

  • 发布时间:2025 年 12 月 18 日,美团 LongCat 团队正式发布并开源了虚拟人视频生成模型 LongCat‑Video‑Avatar
  • 基座模型:该模型在此前开源的 LongCat‑Video 基座上进行升级,针对 InfiniteTalk 与 LongCat‑Video 在实际场景中的痛点(动作僵硬、长视频漂移、身份不一致)进行专门优化。

2. 核心技术创新

维度 关键突破 说明
动作拟真度 Disentangled Unconditional Guidance(解耦无条件引导)‍ 训练方法 让模型在“静音”时仍能自然眨眼、调整坐姿、放松肩膀,避免出现“死机”现象,实现与真人相近的微动作表现
长视频稳定性 跨片段隐空间拼接(Cross‑segment Latent Stitching)‍ 与 参考跳跃注意力(Reference Jump Attention) 通过在不同视频片段之间共享隐空间,消除重复编解码误差,支持生成 5 分钟以上 的高质量视频,保持画面色彩与细节一致
身份一致性 位置编码的参考帧注入 在生成过程中持续注入同一角色的参考帧特征,确保人物外观、服装、发型等属性在整段视频中保持不变

3. 模型架构与规模

  • 参数规模:约 13.6 亿 参数,基于 DIT(Diffusion Image Transformer‍ 架构,采用 C2F(Coarse‑to‑Fine)管道 与 稀疏注意力,实现 720p / 30fps 的实时视频生成。
  • 多模态输入:原生支持 Audio‑Text‑to‑Video(AT2V‍、Audio‑Text‑Image‑to‑Video(ATI2V)‍ 以及 视频续写(Video Continuation)‍ 三大任务,形成“一模型多任务”的统一框架。

4. 性能表现

  • 在 HDTF、CelebV‑HQ 等公开数据集上,模型在 唇形同步、动作流畅度、整体视觉质量 等指标均达到或超过当前开源 SOTA 水平,主观 MOS 评分在 Motion Quality 与 Overall Quality 上分别达到 3.88 与 3.48,显著领先基线模型。
  • 实验结果显示,模型在 长时序(分钟级)‍ 生成时几乎不存在颜色漂移或质量衰减,能够保持稳定的视觉质量。

5. 开源与生态

6. 典型应用场景

  1. 数字人直播:实时生成带表情、肢体动作的虚拟主播,提升观众沉浸感。
  2. 教育培训:生成教学视频中的虚拟讲师,支持多语言音频输入,实现“一键生成”教学素材。
  3. 娱乐内容:为短视频平台、游戏、AR/VR 内容提供高质量虚拟角色动画。
  4. 企业宣传:快速制作品牌代言人视频,降低制作成本并保持形象统一。

7. 未来发展方向

  • 更大尺度模型:计划在 2026 年推出 LongCat‑Video‑Avatar‑XL,参数规模提升至 30 B,以进一步提升细节表现。
  • 跨模态交互:结合 LongCat‑Chat(对话大模型)实现“对话驱动的虚拟人视频生成”。
  • 行业定制:提供面向金融、医疗、教育等行业的专属微调模型,满足特定合规与风格需求。

小结:LongCat‑Video‑Avatar 是美团在虚拟人视频生成领域的最新突破,凭借创新的解耦无条件引导、跨片段隐空间拼接以及参考帧注入等技术,实现了动作逼真、长视频稳定、身份一致三大核心指标的同步提升,并以开源形式面向社区提供,已在多个公开基准上取得 SOTA 成绩,具备广阔的商业落地前景。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!