什么是Skywork UniPic

AI解读 19小时前 硕雀
2 0

Skywork UniPic 是由昆仑万维于2025年7月30日正式推出并开源的一款多模态统一预训练模型。该模型集成了图像理解、文本到图像生成T2I)和图像编辑三大核心能力,旨在实现从“理解”到“生成”再到“编辑”的一体化处理,为用户提供高效、灵活的AI图像处理工具。

核心功能与技术特点

  1. 图文理解:Skywork UniPic 通过基于 token 的自回归建模,能够精准理解文本和图像之间的关系。这种能力使得模型在处理复杂指令时表现出色,例如在 GenEval 指令遵循评估中取得 0.86 的优异成绩,超越了绝大多数同类统一模型。
  2. 图像生成:Skywork UniPic 采用掩码自回归方式,逐步生成高质量的图像 patch,从而提高生成图像的质量和连贯性。在 DPG-Bench 复杂指令生图基准上,Skywork UniPic 达到了 85.5 分的行业 SOTA 水平,与 14B 参数的 BAGEL(85.07 分)不相上下。
  3. 图像编辑:Skywork UniPic 允许用户输入参考图和编辑指令,生成符合要求的编辑后图像。在 GEditBench-EN 和 ImgEdit-Bench 上,Skywork UniPic 分别获得了 5.83 分和 3.49 分的成绩,展现出精准的编辑执行能力。

技术架构与创新点

  1. 轻量级设计:Skywork UniPic 以 1.5B 的紧凑参数规模,实现了接近甚至超越大参数模型的性能表现。这一设计不仅降低了技术应用门槛,还使得模型在消费级显卡(如 RTX 4090)上流畅运行,为开发者和研究者提供了真正可落地的统一模型解决方案。
  2. 创新的编码器结构:Skywork UniPic 借鉴了 GPT-4o 的自回归范式,并在表征方式上做出关键调整。它采用 MAR 编码器作为图像生成路径的视觉表征基础,同时引入 SigLIP2 作为图像理解路径的主干。这种结构设计克服了传统多模态模型依赖 VQVAE 编码器而导致的语义信息保留不足的问题。
  3. 端到端优化流程:Skywork UniPic 完成了端到端优化流程,实现了生成、理解、编辑三大能力的协同训练和相互促进,突破了传统方法中能力权衡的技术瓶颈。

数据构建与训练策略

  1. 高质量语料库:Skywork UniPic 的卓越性能得益于一套高度精炼、系统优化的数据构建体系。团队通过精选预训练语料与任务精调样本,构建了一套高效能多模态训练语料库,实现了高质量小规模数据训练多模态模型的可行性。
  2. 奖励模型:为了提升图像生成与编辑任务的性能,昆仑万维团队设计了两套专用奖励模型,分别用于图像生成和图像编辑的数据质量评估。这些奖励模型不仅提高了数据筛选的精确度,还作为强化学习训练中的奖励信号,显著提升了模型的生成和编辑能力。
  3. 渐进式多任务训练:Skywork UniPic 采用了渐进式多任务训练机制,结合 MAR 训练优化体系与 Harmon 训练优化体系的精髓,实现了模型能力的有序提升。

应用前景与开源贡献

Skywork UniPic 的开源不仅为开发者提供了强大的 AI 工具链,还预示着国产大模型在多模态领域的持续突破。该模型的应用前景广泛,将在创意设计、广告制作、游戏开发等行业发挥重要作用,为用户带来前所未有的体验。开源资源的共享将推动更多开发者和研究者利用这一工具,促进 AI 技术的发展。

总结

Skywork UniPic 是一款集成了图像理解、文本到图像生成和图像编辑三大核心能力的多模态统一预训练模型。它以轻量级设计和创新的架构,实现了接近甚至超越大参数模型的性能表现,为 AI 图像处理领域带来了新的突破。通过开源,Skywork UniPic 不仅推动了技术社区的进步,还为开发者提供了便利,有望在更广泛的领域发挥重要作用

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!