港科大开源 World-To-Image

AI资讯 2小时前 硕雀
1 0

World-To-Image (W2I) 是由香港科技大学 (HKUST) 与合作研究机构(如微软、阿里云等)共同开源的一个创新性框架。它的核心目标是解决当前文本生成图像(T2I)模型在面对新颖概念分布外(OOD)实体时,生成准确率显著下降的问题。

核心创新:智能体驱动的世界知识注入

传统的 T2I 模型(如 DALL·E, Stable Diffusion)在训练时依赖固定的训练集数据,这导致它们对“训练集中没有出现过的东西”(如新发明的产品、实时新闻事件)理解力不足,生成出来的图片往往“看起来很假”。W2I 通过引入智能体 (Agent),让模型能够像人类一样“去网上搜图学习”。

关键技术与组成部分

World-To-Image 采用了代理驱动的多模态对齐 (Agent-driven Multimodal Alignment) 机制,主要包括以下几个关键组件:

  1. 协调代理 (Coordination Agent)
    • 功能:负责判断生成失败的原因。
    • 作用:当模型生成的图像与提示词不匹配时,它会主动决定接下来需要做什么(如检索更多信息)。
  2. 提示优化代理 (Prompt Optimization Agent)
    • 功能:动态优化文本提示词。
    • 作用:它会根据检索到的内容,动态调整和补充提示词,确保文字描述更精准地指引模型。
  3. 图像检索代理 (Image Retrieval Agent)
    • 功能:主动上网检索相关图像。
    • 作用:针对模型不熟悉的新概念(如某个新发明的手机或特定的服装品牌),它会直接去互联网检索真实的图像,并将这些视觉信息反馈给生成模型。
  4. 多模态对齐 (Multimodal Alignment)
    • 功能:确保语言和视觉的语义一致。
    • 作用:通过视觉(图片)辅助文本理解,使得生成模型能更准确地理解“长什么样”。

实验效果与优势

实验结果表明,W2I 在处理新概念时表现显著优于传统模型:

  • 准确率提升:在 NICE 基准测试中,W2I 将提示词的准确率 (Accuracy-to-Prompt) 提升了 8.1%
  • 无需微调:与需要重新训练模型的传统方法不同,W2I 通过优化输入(提示词和检索到的图像)来提升效果,保持了原有模型的视觉质量优势。
  • 效率高:该框架设计高效,通常在少于三次迭代内即可优化出满意的结果。

开源与应用

  • 开源代码:项目已开源,代码仓库托管在 GitHub 上(搜索关键词:World-To-Image)。
  • 文章:https://arxiv.org/pdf/2510.04201
  • 代码:https://github.com/mhson-kyle/World-To-Image
  • 应用场景:适用于需要生成新颖事物图像的任务,如设计新产品的概念图、生成与实时新闻相关的图片,或任何需要高度语义准确性的图像生成需求。

总结:World-To-Image 并不是单纯的图像生成模型,而是一个‍“图像生成的助手系统”‍。它通过模拟人类的“查资料”过程,让 AI 不再局限于记忆训练集,而是能够适应和理解不断变化的现实世界。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!