美团推出虚拟人视频生成模型 LongCat-Video-Avatar

AI资讯 2个月前硕雀

52 0 0

美团 LongCat‑Video‑Avatar 综述

1. 背景与发布

发布时间：2025 年 12 月 18 日，美团 LongCat 团队正式发布并开源了虚拟人视频生成模型 LongCat‑Video‑Avatar。
基座模型：该模型在此前开源的 LongCat‑Video 基座上进行升级，针对 InfiniteTalk 与 LongCat‑Video 在实际场景中的痛点（动作僵硬、长视频漂移、身份不一致）进行专门优化。

2. 核心技术创新

维度	关键突破	说明
动作拟真度	Disentangled Unconditional Guidance（解耦无条件引导）‍ 训练方法	让模型在“静音”时仍能自然眨眼、调整坐姿、放松肩膀，避免出现“死机”现象，实现与真人相近的微动作表现
长视频稳定性	跨片段隐空间拼接（Cross‑segment Latent Stitching）‍ 与参考跳跃注意力（Reference Jump Attention）‍	通过在不同视频片段之间共享隐空间，消除重复编解码误差，支持生成 5 分钟以上的高质量视频，保持画面色彩与细节一致
身份一致性	带位置编码的参考帧注入	在生成过程中持续注入同一角色的参考帧特征，确保人物外观、服装、发型等属性在整段视频中保持不变

3. 模型架构与规模

参数规模：约 13.6 亿 参数，基于 DIT（Diffusion Image Transformer）‍ 架构，采用 C2F（Coarse‑to‑Fine）管道 与 块稀疏注意力，实现 720p / 30fps 的实时视频生成。
多模态输入：原生支持 Audio‑Text‑to‑Video（AT2V）‍、Audio‑Text‑Image‑to‑Video（ATI2V）‍ 以及 视频续写（Video Continuation）‍ 三大任务，形成“一模型多任务”的统一框架。

4. 性能表现

在 HDTF、CelebV‑HQ 等公开数据集上，模型在 唇形同步、动作流畅度、整体视觉质量 等指标均达到或超过当前开源 SOTA 水平，主观 MOS 评分在 Motion Quality 与 Overall Quality 上分别达到 3.88 与 3.48，显著领先基线模型。
实验结果显示，模型在 长时序（分钟级）‍ 生成时几乎不存在颜色漂移或质量衰减，能够保持稳定的视觉质量。

5. 开源与生态

代码仓库：已在 GitHub（<https://github.com/meituan-longcat/LongCat-Video >）以及 Hugging Face 上同步发布，采用 Apache 2.0 许可证，方便社区二次开发与商业落地。
配套文档：提供完整的模型卡、推理脚本、示例数据以及 API 接口说明，帮助开发者快速上手。

6. 典型应用场景

数字人直播：实时生成带表情、肢体动作的虚拟主播，提升观众沉浸感。
教育培训：生成教学视频中的虚拟讲师，支持多语言音频输入，实现“一键生成”教学素材。
娱乐内容：为短视频平台、游戏、AR/VR 内容提供高质量虚拟角色动画。
企业宣传：快速制作品牌代言人视频，降低制作成本并保持形象统一。

7. 未来发展方向

更大尺度模型：计划在 2026 年推出 LongCat‑Video‑Avatar‑XL，参数规模提升至 30 B，以进一步提升细节表现。
跨模态交互：结合 LongCat‑Chat（对话大模型）实现“对话驱动的虚拟人视频生成”。
行业定制：提供面向金融、医疗、教育等行业的专属微调模型，满足特定合规与风格需求。

小结：LongCat‑Video‑Avatar 是美团在虚拟人视频生成领域的最新突破，凭借创新的解耦无条件引导、跨片段隐空间拼接以及参考帧注入等技术，实现了动作逼真、长视频稳定、身份一致三大核心指标的同步提升，并以开源形式面向社区提供，已在多个公开基准上取得 SOTA 成绩，具备广阔的商业落地前景。

LongCat-Video-Avatar

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！