美团发布 LongCat-Video 视频生成模型

AI资讯 21小时前硕雀

15 0 0

美团 LongCat‑Video 视频生成模型概览

1. 背景与发布

发布时间：2025 年 10 月 27 日，美团 LongCat 团队正式发布并开源 LongCat‑Video 视频生成模型。
开源协议：采用 MIT License，允许个人和企业在遵守协议前提下自由商用。
获取渠道：模型已同步上传至 GitHub、HuggingFace，并提供项目主页供下载与文档查看。

2. 核心技术与架构

关键技术	说明
Diffusion Transformer	采用扩散式 Transformer 作为生成骨干，实现高质量的时空建模。
Block‑Causal Attention	在每个固定长度视频块内部进行全注意力，块间使用因果掩码，兼顾全局一致性与计算效率。
Block Sparse Attention	只计算最相关的约 10% 注意力块，将计算成本降至传统方法的 1/10，几乎不损失质量。
GRPO 后训练	通过后训练提升跨帧时序一致性与物理运动合理性，避免色彩漂移、画质降解等常见问题。
两阶段粗到细生成	先生成粗略帧，再细化，提高推理速度约 10 倍，采样步数从 50 步降至 16 步。
模型规模	参数量约 13.6 B，性能已接近甚至超越部分 28 B 级别的开源模型。

3. 功能与任务

文本到视频（Text‑to‑Video）‍：根据自然语言描述生成 720p、30 fps 的高清视频，能够精准解析物体、人物、场景、风格等细节。
图像到视频（Image‑to‑Video）‍：保持参考图像的属性与风格，生成符合物理规律的动态过程。
视频续写（Video Continuation）‍：基于多帧条件帧续接，实现分钟级长视频的连贯生成，最长可稳定输出约 5 分钟的高质量视频。
多语言支持：模型在中英文双语提示下均表现良好，具备风格迁移能力。

4. 性能评估

VBench 基准：在公开 VBench 2.0 测评中，LongCat‑Video 获得总分 62.11%，仅次于谷歌 Veo‑3 与商用闭源模型，常识理解维度得分 70.94%，在所有开源模型中排名第一。
主观质量（MOS）‍：内部 MOS 评测显示，13.6 B 参数模型的表现几乎追平 28 B 级别模型，兼具轻量与高质量。
推理效率：采用块稀疏注意力与两阶段生成后，单卡 H800 GPU 上可在几分钟内生成一分钟视频，速度提升约 10 倍。

5. 开源生态与使用方式

代码仓库：GitHub（meituan-longcat/LongCat-Video）提供模型权重、推理脚本与详细文档。
模型托管：HuggingFace（meituan-longcat/LongCat-Video）可直接在线试用并下载。
文档与示例：项目主页列出文本、图像、续写三大任务的使用示例，配有生成视频的演示链接。

6. 应用前景

数字人与具身智能：长时序视频生成可为数字人交互、虚拟主播提供连续、自然的动作表现。
自动驾驶与仿真：通过“世界模型”能力，能够在虚拟环境中生成真实的道路、交通场景视频，辅助感知与决策系统的训练。
内容创作与娱乐：支持影视、游戏、教育等行业的快速视频原型制作，降低创作成本并提升创意迭代速度。

总结
LongCat‑Video 是美团在视频生成领域的最新突破，凭借 Diffusion Transformer 与 Block‑Causal/ Sparse Attention 等创新技术，实现了文本、图像到视频以及视频续写的统一模型，并在长视频生成、时序一致性和推理效率上达到了开源 SOTA 水平。其 MIT 开源协议、丰富的任务支持以及在 VBench 等基准上的领先表现，使其成为数字内容创作、具身 AI 与仿真等多场景的强大工具。

LongCat-Video 视频生成模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！