美团发布 LongCat-Video 视频生成模型

AI资讯 21小时前 硕雀
15 0

美团 LongCat‑Video 视频生成模型概览


1. 背景与发布

  • 发布时间:2025 年 10 月 27 日,美团 LongCat 团队正式发布并开源 LongCat‑Video 视频生成模型。
  • 开源协议:采用 MIT License,允许个人和企业在遵守协议前提下自由商用。
  • 获取渠道:模型已同步上传至 GitHubHuggingFace,并提供项目主页供下载与文档查看。

2. 核心技术与架构

关键技术 说明
Diffusion Transformer 采用扩散式 Transformer 作为生成骨干,实现高质量的时空建模
Block‑Causal Attention 在每个固定长度视频块内部进行全注意力,块间使用因果掩码,兼顾全局一致性与计算效率。
Block Sparse Attention 只计算最相关的约 10% 注意力块,将计算成本降至传统方法的 1/10,几乎不损失质量。
GRPO 后训练 通过后训练提升跨帧时序一致性与物理运动合理性,避免色彩漂移、画质降解等常见问题。
两阶段粗到细生成 先生成粗略帧,再细化,提高推理速度约 10 倍,采样步数从 50 步降至 16 步。
模型规模 参数量约 13.6 B,性能已接近甚至超越部分 28 B 级别的开源模型。

3. 功能与任务

  • 文本到视频(Text‑to‑Video)‍:根据自然语言描述生成 720p、30 fps 的高清视频,能够精准解析物体、人物、场景、风格等细节。
  • 图像到视频(Image‑to‑Video)‍:保持参考图像的属性与风格,生成符合物理规律的动态过程。
  • 视频续写(Video Continuation)‍:基于多帧条件帧续接,实现分钟级长视频的连贯生成,最长可稳定输出约 5 分钟的高质量视频。
  • 多语言支持:模型在中英文双语提示下均表现良好,具备风格迁移能力。

4. 性能评估

  • VBench 基准:在公开 VBench 2.0 测评中,LongCat‑Video 获得总分 62.11%,仅次于谷歌 Veo‑3 与商用闭源模型,常识理解维度得分 70.94%,在所有开源模型中排名第一。
  • 主观质量(MOS)‍:内部 MOS 评测显示,13.6 B 参数模型的表现几乎追平 28 B 级别模型,兼具轻量与高质量。
  • 推理效率:采用块稀疏注意力与两阶段生成后,单卡 H800 GPU 上可在几分钟内生成一分钟视频,速度提升约 10 倍。

5. 开源生态与使用方式

  • 代码仓库GitHub(meituan-longcat/LongCat-Video)提供模型权重、推理脚本与详细文档。
  • 模型托管:HuggingFace(meituan-longcat/LongCat-Video)可直接在线试用并下载。
  • 文档与示例:项目主页列出文本、图像、续写三大任务的使用示例,配有生成视频的演示链接。

6. 应用前景

  • 数字人与具身智能:长时序视频生成可为数字人交互、虚拟主播提供连续、自然的动作表现。
  • 自动驾驶与仿真:通过“世界模型”能力,能够在虚拟环境中生成真实的道路、交通场景视频,辅助感知与决策系统的训练。
  • 内容创作与娱乐:支持影视、游戏、教育等行业的快速视频原型制作,降低创作成本并提升创意迭代速度。

总结
LongCat‑Video 是美团在视频生成领域的最新突破,凭借 Diffusion Transformer 与 Block‑Causal/ Sparse Attention 等创新技术,实现了文本、图像到视频以及视频续写的统一模型,并在长视频生成、时序一致性和推理效率上达到了开源 SOTA 水平。其 MIT 开源协议、丰富的任务支持以及在 VBench 等基准上的领先表现,使其成为数字内容创作、具身 AI 与仿真等多场景的强大工具。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!