DreamOmni 系列概述
DreamOmni 是由香港中文大学、字节跳动和香港科技大学联合研发的 统一图像生成与编辑模型。它在传统的文本‑到‑图像(Text‑to‑Image,T2I)生成基础上,加入了多种编辑任务(如指令编辑、遮挡填补、拖拽编辑、参考图像生成等),实现“一套模型多任务” 的统一框架。
1. 主要技术创新
关键点 | 说明 |
---|---|
统一框架 | 将 T2I 生成与多种编辑任务统一到同一 diffusion‑transformer 结构中,避免为每个任务单独设计插件或额外输入通道。 |
合成数据管线 | 采用 synthetic collage(拼贴)方式大规模生成高质量编辑数据,覆盖添加、删除、替换、拖拽(平移、缩放、旋转)等六大任务,显著降低人工标注成本。 |
视觉‑语言编码 | 用 Vision‑Language Model(VLM)取代传统的 CLIP/T5 文本编码器,实现图文共同编码,提升对复杂指令的理解与执行能力。 |
高效训练 | 采用 DIT(Diffusion‑in‑Transformer)结构,将大部分计算集中在 2× 下采样的 latent 上,同时保留 UNet‑style 残差连接,加速收敛并保持细节质量。 |
多任务协同 | 在同一次训练中同时使用 T2I 数据和编辑数据,防止概念遗忘,提升编辑任务的指令遵循度和生成质量。 |
以上内容摘自论文《DreamOmni: Unified Image Generation and Editing》以及项目页面的官方描述。
2. 版本演进(DreamOmni‑V1 / V2 / V3)
- DreamOmni‑V1:仅包含两层下采样(2×、4×),结构类似 SDXL,但未加入 UNet 连接。
- DreamOmni‑V2:在 V1 基础上加入 UNet 连接,显著提升收敛速度。
- DreamOmni‑V3:进一步将所有 DIT 运算聚焦在 2× 下采样的 latent 上,兼顾效率与效果,成为当前实验中表现最好的版本。
版本对比实验在论文第 4 节中给出,展示了 V2、V3 在收敛速度和生成质量上的优势。
3. 关键应用场景
- 指令编辑:根据自然语言指令实现图像中对象的添加、删除或替换。
- 遮挡填补(Inpainting)/ 扩展(Outpainting):对任意遮挡区域进行高质量填充。
- 拖拽编辑:对图中对象进行平移、缩放、旋转等几何变换。
- 参考图像生成:利用 Canny、深度图、分割图等条件图像进行控制式生成,效果优于传统 ControlNet。
- 主体驱动生成:在保持指定主体特征的前提下,根据文本指令生成新内容。
4. 公开资源与获取方式
资源 | 链接 | 说明 |
---|---|---|
论文(arXiv) | https://arxiv.org/abs/2412.17098 | 完整技术细节、实验结果、模型结构。 |
项目主页 | https://zj-binxia.github.io/DreamOmni-ProjectPage/ | 演示图片、模型下载链接、代码仓库入口。 |
代码仓库(GitHub) | https://github.com/ZJ-BinXia/DreamOmni | 开源实现、使用说明、预训练模型。 |
模型权重 | 项目主页提供的 Google Drive / HuggingFace 链接 | 可直接下载用于推理或二次微调。 |
相关论文(DreamOmni 在 Omni² 体系中的引用) | https://arxiv.org/abs/2504.11379 | 在《Omni²: Unifying Omnidirectional Image Generation and Editing》论文中提及 DreamOmni 的数据管线与模型思想。 |
5. 简要使用流程(示例)
- 准备环境:
pip install -r requirements.txt
(包含 PyTorch、diffusers、transformers 等)。 - 下载模型:从项目主页提供的链接获取
dreamomni_v3.pth
。 - 加载模型:
from dreamomni import DreamOmni model = DreamOmni.load_from_checkpoint("dreamomni_v3.pth")
- 生成或编辑:
- 文本生成:
model.generate(prompt="一只在星空下奔跑的金色猎犬")
- 指令编辑:
model.edit(image, instruction="把左上角的树换成一座灯塔")
- 文本生成:
具体 API 细节请参考项目主页的使用文档。
6. 小结
DreamOmni 通过 统一的 diffusion‑transformer 框架 + 大规模合成编辑数据,实现了文本生成、图像编辑、条件生成等多任务的高效协同。其 V3 版本 在保持生成质量的同时显著提升了训练效率,已在多项公开基准上取得 SOTA 级别的表现。感兴趣的研究者和开发者可通过上述链接获取论文、代码和模型,进一步探索或在实际产品中进行集成。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!