美团重磅开源 6B 参数图像生成模型 LongCat-Image

AI资讯 1天前硕雀

11 0 0

美团 LongCat‑Image 6B 参数图像生成模型概览

1. 项目背景

2025 年 12 月 8 日，美团 LongCat 团队正式对外发布并开源了 LongCat‑Image，这是一款面向文本生成图像（Text‑to‑Image）和文本引导图像编辑（Image‑Edit）的统一模型。发布旨在降低高质量图像生成的硬件门槛，推动 AI 图像技术在产业落地与社区创新。

2. 模型概述

参数规模：约 60 亿（6 B）参数，属于中等规模模型，却在多项基准上逼近 20 B‑80 B 大模型的表现。
任务覆盖：支持 文生图（文本 → 图像）和 图像编辑（文本指令 → 图像修改）两大核心能力，采用同源架构实现功能共享。
开源许可证：Apache 2.0，允许商业与非商业使用，社区可自由二次开发。

3. 架构设计

混合骨干：采用 MM‑DiT + Single‑DiT 的混合结构，结合视觉语言模型（VLM）条件编码器，实现文本与视觉信息的高效对齐。
同源设计：文生图与图像编辑共享同一主干网络，避免为不同任务维护独立模型，提升参数利用率。
渐进式学习策略：训练过程中逐步引入更复杂任务，使模型在保持指令遵循精准度的同时，提升图像质量与文字渲染能力。

4. 训练数据与策略

数据规模：使用美团内部大规模多模态数据，覆盖中英双语文本、真实照片、艺术风格等多样化图像，特别强化中文文字渲染能力。
系统化训练：包括 SFT（监督微调）‍、LoRA、DPO 等多阶段微调手段，确保模型在不同下游任务上具备稳健表现。
质量控制：通过数据清洗、噪声过滤以及多语言对齐，提升生成图像的真实性与一致性。

5. 性能评测

基准	LongCat‑Image (6B)	对标模型
GenEval（生成质量）	0.87	Qwen‑Image‑20B（持平）
DPG（文本‑图像对应度）	超过 12B‑FLUX.1‑dev（0.66）	HunyuanImage‑3.0‑80B（略低）
GEdit‑Bench / ImgEdit‑Bench（图像编辑）	开源 SOTA 水平	同类开源模型

上述结果表明，LongCat‑Image 在 6 B 参数 下即可实现 与 20 B‑80 B 大模型相当 的生成与编辑能力，显著降低了硬件门槛。

6. 开源资源与使用方式

代码仓库：GitHub（<https://github.com/meituan-longcat/LongCat-Image >）提供完整模型权重、推理脚本、训练代码以及 LoRA/DPO 微调示例。
模型权重：已同步至 Hugging Face 社区，支持直接 from_pretrained 调用。
文档：包含模型架构说明、数据准备指南、部署建议（推荐单卡 24 GB 显存即可运行）以及 API 示例。
社区：官方设有讨论区，鼓励开发者提交改进、扩展插件及行业案例。

7. 应用场景与限制

适用场景：电商商品图生成、营销素材创作、广告海报、游戏美术资源、文本驱动的图像编辑等。
硬件需求：6 B 参数模型在单卡（如 RTX 4090）即可完成推理，适合中小企业与个人开发者。
局限性：仍受限于训练数据分布，对极端风格或高度专业化的视觉概念可能表现不足；需遵守开源许可证及平台使用政策，避免在敏感或违规内容上使用。

8. 未来展望

美团 LongCat 团队计划在 LongCat‑Image 基础上继续迭代，探索更大规模模型的高效压缩、跨模态统一建模（如 Text‑to‑Video）以及行业垂直化微调方案，进一步提升模型在实际业务中的落地价值。

总结：LongCat‑Image 以 6 B 参数实现了与大模型相媲美的图像生成与编辑能力，采用同源混合架构与渐进式学习策略，开源后可在普通显卡上部署，极大降低了 AI 图像技术的使用门槛，为开发者和企业提供了高效、可定制的视觉生成工具。

LongCat-Image

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！