OpenAI 发布 ChatGPT Images 2.0，单次可生成8张连贯图像

AI资讯 2个月前硕雀

23 0 0

OpenAI 近期推出了被称为“ChatGPT Images 2.0”（内部代号为 GPT-Image-2 或 maskingtape-alpha 等）的新一代图像生成功能，该功能被整合进 ChatGPT 原生中，并在多项核心能力上实现了重大突破。虽然目前官方并未正式以“单次生成8张连贯图像”作为标准公开宣传语，但大量测试用户反馈显示，该模型在生成系列图像、角色一致性、多步骤叙事等方面表现卓越，能够高质量输出连贯的多图内容，常被用户用于制作四宫格、八宫格漫画或连续场景。

以下是关于该更新的核心亮点与功能解析：

1. 原生整合与多模态协同

此次更新最大的变化是将图像生成功能直接集成到 ChatGPT 对话界面中，不再依赖独立的 DALL-E 3 接口。系统基于 GPT-4o 模型的世界知识，能够深入理解用户提示中的上下文和逻辑关系，从而生成更符合意图的图像。用户只需在对话框中输入自然语言指令，即可直接生成图像，并支持多轮迭代优化，例如“让这个角色回头看”或“把背景换成夜晚”。

2. 卓越的文本渲染能力

GPT-Image-2 解决了以往模型在生成文字时容易拼写错误、字符扭曲的问题。它现在能够生成清晰、准确的文字内容，包括：

复杂文本场景：清晰显示黑板板书、海报、信息图、网页截图中的文字。
多语言支持：支持多种语言的精确渲染，甚至能模拟书法美感。
非拉丁字符：对中文、日文等非拉丁字符的识别和生成能力显著提升。

3. 高精度对象绑定与角色一致性

模型在处理复杂场景时表现优异，能够正确绑定 15 到 20 个物体的属性，不再混淆颜色和形状。这一能力对于生成连贯图像系列至关重要：

角色一致性：用户定义角色后，模型能在连续多张图像中保持角色的外貌、服装和特征一致，非常适合制作漫画、动画分镜或故事插图。
多对象生成：能够准确生成包含多个不同物品的复杂场景，解决了以往模型难以处理“8张连贯图像”中角色动态变化的问题。

4. 真实感与细节提升

人像质感：新模型生成的人像更加逼真，皮肤纹理、皱纹、胡须等细节处理更加自然，解决了旧模型“黄色滤镜”问题，色彩更真实。
高分辨率：支持最高 4096×4096 分辨率，可输出印刷级品质的图像。

5. 关于“单次生成8张连贯图像”的说明

虽然官方未明确使用“单次生成8张”这一固定话术，但测试用户发现，通过自然语言提示（如“生成一个四格漫画，讲述一个人从起床到上班的故事”），GPT-Image-2 能够：

自动拆解叙事：将复杂故事自动拆分为多个画面。
保持连贯性：生成的多张图像在构图、角色、风格上高度连贯。
批量处理：用户可轻松要求生成多张（如 4 张、8 张甚至更多）连续场景，模型能够高质量完成，形成完整的视觉故事。

6. 使用与访问

开放范围：该功能已向 ChatGPT 免费用户、Plus、Pro、Team 及企业版用户开放（部分功能可能根据订阅层级有所不同）。
API 支持：开发者可通过 API 调用 GPT-Image-2，支持自然语言描述、草图转图像、透明 PNG 输出等功能。

总结

OpenAI 的 GPT-Image-2 标志着 AI 图像生成从“单图创作”向“叙事与协同”的重大跨越。其强大的文本渲染、角色一致性保持和复杂场景理解能力，使其成为制作连贯系列图像（如漫画、分镜、多步骤演示）的首选工具。用户只需通过自然语言描述，即可轻松生成包含多张画面的连贯视觉内容。

ChatGPT Images 2.0

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！