什么是DreamOmni2

AI解读 5小时前 硕雀
6 0

DreamOmni2 简介

DreamOmni2 是由香港科技大学联合多家机构(包括字节跳动、香港中文大学等)在 2025 年 10 月发布的开源多模态图像编辑与生成模型。它在 指令式编辑、文本到图像(T2I)生成以及多参考图像编辑 三大任务上实现统一框架,旨在突破传统模型“生成‑编辑”分离、数据稀缺以及抽象概念理解不足的瓶颈。

关键特性

  • 统一多模态指令:支持文字指令、单张或多张参考图像共同驱动的编辑与生成,能够同时处理具体对象(如替换灯笼、服装)和抽象属性(如光照、风格、纹理)。
  • 技术架构:基于 FLUX‑Kontext 与 Qwen2.5‑VL 的联合训练,采用三阶段数据构建(特征混合、编辑指令生成、再加工)以及索引编码、位置偏移等创新,提高跨模态对齐与指令理解能力。
  • 多参考图编辑:可输入 2‑4 张参考图,模型会综合这些信息生成符合需求的图像,显著提升创意灵活性。
  • 性能优势:在公开基准(姿态迁移、发型模仿、光照调节等)上超越商业模型 Nano‑Banana、GPT‑4o 等,尤其在抽象概念编辑上表现突出。
  • 开源与可复用:模型权重、训练代码、数据集均在 GitHubHugging Face 上公开,采用 Apache‑2.0 许可证,方便科研与商业二次开发。
  • 应用场景:对象替换、背景更换、风格迁移、虚拟试穿、电影分镜、文字渲染等,适用于内容创作、广告设计、游戏美术等行业。

主要发布渠道与链接

发展意义

DreamOmni2 通过“一体化”设计,打通了 文本‑图像‑编辑 的全链路,降低了创作者对专业修图技能的依赖,同时提供了高质量、可控的生成结果。其开源特性促进了社区协作,推动了多模态 AI 在实际生产环境中的落地,预示着未来图像创作将更加 指令化、交互化、可扩展

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!