InstructPix2Pix 是为“指令驱动的图像编辑”任务专门构建的大规模合成数据集。它把 输入图像 + 编辑指令 → 目标图像 组织成三元组,使得模型能够在给定自然语言指令的情况下,对任意输入图像进行相应的编辑。该数据集的核心特点如下:
| 项目 | 内容 |
|---|---|
| 规模 | 约 454 445 条 示例(每条包含输入图像、编辑指令、输出图像) |
| 来源 | 采用 GPT‑3 生成编辑指令和对应的文字描述,再利用 Stable Diffusion(Prompt‑to‑Prompt) 生成前后图像对。整个流程实现了全自动、可扩展的合成数据管线 |
| 过滤 | 通过 CLIP 评分 过滤低质量样本,并进行 NSFW 内容过滤,保证数据质量和安全性 |
| 数据划分 | 提供两套子集: • clip‑filtered‑dataset(经过 CLIP 过滤的完整数据) • random‑sample‑dataset(随机抽样的轻量子集) |
| 公开渠道 | - GitHub 项目主页(代码、下载脚本) https://github.com/timothybrooks/instruct-pix2pix - Hugging Face 数据集(可直接 datasets 加载)https://huggingface.co/datasets/timbrooks/instructpix2pix-clip-filtered - 社区简化版(1000 条样本) https://huggingface.co/datasets/sayakpaul/instructpix2pix-1000-samples |
| 使用场景 | - 训练条件扩散模型实现 指令式图像编辑(如“把天空改成黄昏”“把人物换成卡通风格”) - 评估图像编辑模型的指令遵循度和视觉质量 - 作为基准数据集进行 跨模态对齐、指令微调 等研究 |
数据生成流程简述
- 指令生成:在小规模人工标注的 “原始图像描述 + 编辑指令 + 目标描述” 三元组上微调 GPT‑3,得到能够为任意图像生成自然语言编辑指令的模型。
- 图像对生成:将 原始描述 与 目标描述 分别喂入 Stable Diffusion 的 Prompt‑to‑Prompt 控制模块,生成对应的 前后图像。
- 质量过滤:使用 CLIP 对生成的图像对进行相似度评分,剔除低相似度或不符合指令的样本;再进行 NSFW 检测。
- 整理成数据集:每条记录保存为
(input_image, instruction, output_image),并提供 JSON / Parquet 等多种存储格式,便于直接加载训练。
关键文献
- 原始论文:InstructPix2Pix: Learning to Follow Image Editing Instructions(Tim Brooks 等,2023)
- 技术博客:华为云社区对数据集生成与模型实现的详细解读
- 最新综述:2024 年多模态图像编辑综述中对 InstructPix2Pix 数据集的评价与局限分析
简言之,InstructPix2Pix 数据集是目前公开的、规模最大的指令驱动图像编辑训练资源,兼具大规模、自动化生成与高质量过滤两大优势,为研究者提供了直接训练和评估基于语言指令的图像编辑模型的可靠基准。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!