OpenAI 发布 ChatGPT Images 2.0,单次可生成8张连贯图像

OpenAI 近期推出了被称为“ChatGPT Images 2.0”(内部代号为 GPT-Image-2 或 maskingtape-alpha 等)的新一代图像生成功能,该功能被整合进 ChatGPT 原生中,并在多项核心能力上实现了重大突破。虽然目前官方并未正式以“单次生成8张连贯图像”作为标准公开宣传语,但大量测试用户反馈显示,该模型在生成系列图像、角色一致性、多步骤叙事等方面表现卓越,能够高质量输出连贯的多图内容,常被用户用于制作四宫格、八宫格漫画或连续场景。

以下是关于该更新的核心亮点与功能解析:

1. 原生整合与多模态协同

此次更新最大的变化是将图像生成功能直接集成到 ChatGPT 对话界面中,不再依赖独立的 DALL-E 3 接口。系统基于 GPT-4o 模型的世界知识,能够深入理解用户提示中的上下文和逻辑关系,从而生成更符合意图的图像。用户只需在对话框中输入自然语言指令,即可直接生成图像,并支持多轮迭代优化,例如“让这个角色回头看”或“把背景换成夜晚”。

2. 卓越的文本渲染能力

GPT-Image-2 解决了以往模型在生成文字时容易拼写错误、字符扭曲的问题。它现在能够生成清晰、准确的文字内容,包括:

  • 复杂文本场景:清晰显示黑板板书、海报、信息图、网页截图中的文字。
  • 多语言支持:支持多种语言的精确渲染,甚至能模拟书法美感。
  • 非拉丁字符:对中文、日文等非拉丁字符的识别和生成能力显著提升。

3. 高精度对象绑定与角色一致性

模型在处理复杂场景时表现优异,能够正确绑定 15 到 20 个物体的属性,不再混淆颜色和形状。这一能力对于生成连贯图像系列至关重要:

  • 角色一致性:用户定义角色后,模型能在连续多张图像中保持角色的外貌、服装和特征一致,非常适合制作漫画、动画分镜或故事插图。
  • 多对象生成:能够准确生成包含多个不同物品的复杂场景,解决了以往模型难以处理“8张连贯图像”中角色动态变化的问题。

4. 真实感与细节提升

  • 人像质感:新模型生成的人像更加逼真,皮肤纹理、皱纹、胡须等细节处理更加自然,解决了旧模型“黄色滤镜”问题,色彩更真实。
  • 高分辨率:支持最高 4096×4096 分辨率,可输出印刷级品质的图像。

5. 关于“单次生成8张连贯图像”的说明

虽然官方未明确使用“单次生成8张”这一固定话术,但测试用户发现,通过自然语言提示(如“生成一个四格漫画,讲述一个人从起床到上班的故事”),GPT-Image-2 能够:

  • 自动拆解叙事:将复杂故事自动拆分为多个画面。
  • 保持连贯性:生成的多张图像在构图、角色、风格上高度连贯。
  • 批量处理:用户可轻松要求生成多张(如 4 张、8 张甚至更多)连续场景,模型能够高质量完成,形成完整的视觉故事。

6. 使用与访问

  • 开放范围:该功能已向 ChatGPT 免费用户、Plus、Pro、Team 及企业版用户开放(部分功能可能根据订阅层级有所不同)。
  • API 支持:开发者可通过 API 调用 GPT-Image-2,支持自然语言描述、草图转图像、透明 PNG 输出等功能。

总结

OpenAI 的 GPT-Image-2 标志着 AI 图像生成从“单图创作”向“叙事与协同”的重大跨越。其强大的文本渲染、角色一致性保持和复杂场景理解能力,使其成为制作连贯系列图像(如漫画、分镜、多步骤演示)的首选工具。用户只需通过自然语言描述,即可轻松生成包含多张画面的连贯视觉内容。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!