美团 LongCat‑Video‑Avatar 综述
1. 背景与发布
- 发布时间:2025 年 12 月 18 日,美团 LongCat 团队正式发布并开源了虚拟人视频生成模型 LongCat‑Video‑Avatar。
- 基座模型:该模型在此前开源的 LongCat‑Video 基座上进行升级,针对 InfiniteTalk 与 LongCat‑Video 在实际场景中的痛点(动作僵硬、长视频漂移、身份不一致)进行专门优化。
2. 核心技术创新
| 维度 | 关键突破 | 说明 |
|---|---|---|
| 动作拟真度 | Disentangled Unconditional Guidance(解耦无条件引导) 训练方法 | 让模型在“静音”时仍能自然眨眼、调整坐姿、放松肩膀,避免出现“死机”现象,实现与真人相近的微动作表现 |
| 长视频稳定性 | 跨片段隐空间拼接(Cross‑segment Latent Stitching) 与 参考跳跃注意力(Reference Jump Attention) | 通过在不同视频片段之间共享隐空间,消除重复编解码误差,支持生成 5 分钟以上 的高质量视频,保持画面色彩与细节一致 |
| 身份一致性 | 带位置编码的参考帧注入 | 在生成过程中持续注入同一角色的参考帧特征,确保人物外观、服装、发型等属性在整段视频中保持不变 |
3. 模型架构与规模
- 参数规模:约 13.6 亿 参数,基于 DIT(Diffusion Image Transformer) 架构,采用 C2F(Coarse‑to‑Fine)管道 与 块稀疏注意力,实现 720p / 30fps 的实时视频生成。
- 多模态输入:原生支持 Audio‑Text‑to‑Video(AT2V)、Audio‑Text‑Image‑to‑Video(ATI2V) 以及 视频续写(Video Continuation) 三大任务,形成“一模型多任务”的统一框架。
4. 性能表现
- 在 HDTF、CelebV‑HQ 等公开数据集上,模型在 唇形同步、动作流畅度、整体视觉质量 等指标均达到或超过当前开源 SOTA 水平,主观 MOS 评分在 Motion Quality 与 Overall Quality 上分别达到 3.88 与 3.48,显著领先基线模型。
- 实验结果显示,模型在 长时序(分钟级) 生成时几乎不存在颜色漂移或质量衰减,能够保持稳定的视觉质量。
5. 开源与生态
- 代码仓库:已在 GitHub(<https://github.com/meituan-longcat/LongCat-Video >)以及 Hugging Face 上同步发布,采用 Apache 2.0 许可证,方便社区二次开发与商业落地。
- 配套文档:提供完整的模型卡、推理脚本、示例数据以及 API 接口说明,帮助开发者快速上手。
6. 典型应用场景
- 数字人直播:实时生成带表情、肢体动作的虚拟主播,提升观众沉浸感。
- 教育培训:生成教学视频中的虚拟讲师,支持多语言音频输入,实现“一键生成”教学素材。
- 娱乐内容:为短视频平台、游戏、AR/VR 内容提供高质量虚拟角色动画。
- 企业宣传:快速制作品牌代言人视频,降低制作成本并保持形象统一。
7. 未来发展方向
- 更大尺度模型:计划在 2026 年推出 LongCat‑Video‑Avatar‑XL,参数规模提升至 30 B,以进一步提升细节表现。
- 跨模态交互:结合 LongCat‑Chat(对话大模型)实现“对话驱动的虚拟人视频生成”。
- 行业定制:提供面向金融、医疗、教育等行业的专属微调模型,满足特定合规与风格需求。
小结:LongCat‑Video‑Avatar 是美团在虚拟人视频生成领域的最新突破,凭借创新的解耦无条件引导、跨片段隐空间拼接以及参考帧注入等技术,实现了动作逼真、长视频稳定、身份一致三大核心指标的同步提升,并以开源形式面向社区提供,已在多个公开基准上取得 SOTA 成绩,具备广阔的商业落地前景。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!