阿里重磅开源AI图像编辑模型 Qwen-Image-Layered

AI资讯 5小时前 硕雀
5 0

Qwen‑Image‑Layered 简介

Qwen‑Image‑Layered 是阿里巴巴推出的 分层可编辑图像生成模型,在 2025 年 12 月正式开源(Apache 2.0)。模型能够把一张 RGB 图像 自动分解为多个 RGBA 层,每个层对应图像中的前景物体、背景、文字等语义成分,支持对任意层进行独立的颜色、内容、位置、删除、缩放等编辑,而不影响其他层,从而实现 高一致性、精细化的图像编辑


1. 技术核心

关键组件 功能说明
RGBA‑VAE 统一 RGB 与 RGBA 图像的潜在表示,使得后续的层分解在同一潜空间中进行
VLD‑MMDiT 架构 支持 可变层数 的扩散网络,能够递归地预测每一层的 RGBA 内容
多阶段训练策略 预训练通用图像生成模型 → ② 逐步适配为多层分解器,提升分解质量与编辑一致性
数据管道 Photoshop PSD 文档中抽取并标注高质量多层图像,缓解了多层数据稀缺的问题

2. 主要能力

  • 层分解:将单张图像拆解为 1‑N 个语义解耦的 RGBA 层。
  • 独立编辑:对任意层执行文字修改、对象替换、颜色调节、移动、删除、缩放等操作,编辑后层之间保持 像素级一致
  • 递归分解:支持对已分解的层再次进行分层,适应复杂组合场景。
  • 跨模态引导:可结合文本、草图或掩码进行 条件分层,实现更灵活的创作。
  • 高保真重建:在 Crello、AIM‑500 等公开数据集上均取得 SOTA 分数,重建误差低于同类模型。

3. 开源生态

资源 链接 说明
GitHub 代码仓库 https://github.com/QwenLM/Qwen-Image-Layered 包含模型检查点、训练脚本、ComfyUI 工作流文件
HuggingFace 模型页 https://huggingface.co/Qwen/Qwen-Image-Layered 直接在线推理、下载权重
ModelScope https://modelscope.cn/models/Qwen/Qwen-Image-Layered 国内镜像,便于国内用户快速访问
官方博客 https://qwen.ai/blog?id=qwen-image-layered 详细技术解读、使用案例
ArXiv 论文 https://arxiv.org/abs/2512.15603 完整学术描述、实验结果
ComfyUI 工作流 https://comfyui-wiki.com/en/news/2025-12-19-qwen-image-layered-release 原生节点支持,直接在 ComfyUI 中拖拽使用
在线演示 https://fal.ai/models/fal-ai/qwen-image-layered 支持上传图片、实时分层编辑

4. 使用场景

  1. 产品设计 & 广告制作:快速拆解海报、包装图,单独替换文字或局部元素,保持整体视觉一致。
  2. 电商图像编辑:对商品图进行颜色、尺寸、背景替换,避免重新渲染全图。
  3. 创意绘画 & 漫画:将手绘稿分层后单独上色、添加特效,提升工作效率。
  4. 多模态内容创作:结合文本提示对特定层进行内容生成,实现“文字→图层”直接编辑。

5. 快速上手(ComfyUI 示例)

  1. 下载检查点:从 GitHub Release 页面获取 qwen-image-layered.ckpt,放入 ComfyUI/models/checkpoints/
  2. 加载节点:在 ComfyUI 中添加 “Qwen‑Image‑Layered” 节点,输入图片后即可得到 Layer Mask 与 RGBA Layer 输出。
  3. 编辑:使用 “Mask Edit” 或 “Layer Blend” 节点对指定层进行颜色、位移等操作,再合成回原图。

详细工作流文件已在官方 Wiki 中提供,可直接下载使用。


6. 关键优势总结

  • 固有可编辑性:层级结构天然支持局部编辑,避免传统像素级编辑的“全局漂移”。
  • 灵活层数:可根据图像复杂度动态决定层数,兼顾细粒度与计算效率。
  • 开源友好:完整代码、模型、示例工作流均已公开,社区可自由二次开发。
  • 跨平台:支持 HuggingFace、ModelScope、Fal.ai、ComfyUI 等多种生态,满足不同用户需求。

参考链接(可直接点击访问)

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!