HQ‑Edit 数据集概览
| 项目 | 内容 | 说明 |
|---|---|---|
| 全称 | HQ‑Edit: A High‑Quality and High‑Coverage Dataset for General Image Editing | |
| 规模 | 大约 19.7 万条编辑实例(每条包含输入图像、输出图像和详细编辑指令) | |
| 数据来源 | 采用 GPT‑4V 与 DALL‑E 3 进行自动化生成,经过扩展、生成、后处理三阶段确保图像‑文本对齐精确、分辨率高、细节丰富 | |
| 主要特征 | - 高分辨率、真实感强的图像 - 多样化、覆盖面广的编辑指令(如颜色修改、结构添加、风格迁移等) - 对齐(Alignment)与连贯性(Coherence)两项质量评估指标,使用 GPT‑4V 进行量化 |
|
| 应用场景 | - 指令式图像编辑模型(如 InstructPix2Pix、StableDiffusion‑InstructPix2Pix)微调 - 创意设计、图像修复、内容生成 - 多模态学习与评估基准 |
|
| 公开渠道 | - GitHub 项目主页:<https://github.com/UCSC-VLAA/HQ-Edit >(代码、数据下载、模型权重) - HuggingFace 镜像:<https://github.com/camenduru/HQEdit-hf >(便于在 HF 平台直接使用) - 数据平台示例:<https://hyper.ai/cn/datasets/32015 >(数据概览与在线预览) |
|
| 引用方式 | Hui M., Yang S., Zhao B., Shi Y., Wang H., Wang P., Xie C., Zhou Y. “HQ‑Edit: A High‑Quality and High‑Coverage Dataset for General Image Editing”, 2024. |
关键技术亮点
- 自动化高质量采集管线
- 扩展(Expansion):从网络收集 203 种种子三元组(输入描述、输出描述、编辑指令),形成多样化的编辑场景。
- 生成(Generation):利用 GPT‑4V 生成详细文本指令,DALL‑E 3 生成对应的高分辨率图像对。
- 后处理(Post‑processing):对齐图像像素、去除噪声,确保输入‑输出图像在空间上严格对应。
- 质量评估指标
- Alignment:衡量指令与图像编辑结果的对应程度。
- Coherence:评估编辑过程的连贯性与自然度。两项指标均通过 GPT‑4V 自动打分,保证数据集整体质量。
- 对下游模型的提升
- 在 HQ‑Edit 上微调的 InstructPix2Pix 在多项指令式编辑基准上超越了使用传统人工标注数据微调的模型,显示出高质量合成数据的有效性。
如何使用
- 下载:在 GitHub 项目页面的
data/目录中提供了完整的 JSON/COCO‑style 标注文件以及对应的图像压缩包。 - 加载:可直接使用
datasets库的load_dataset("UCSC-VLAA/HQ-Edit")(已在 HuggingFace 上同步)进行加载。 - 微调示例:官方提供了基于
StableDiffusionInstructPix2PixPipeline的微调脚本,适配 PyTorch 与 🤗 Diffusers 框架。
总结:HQ‑Edit 是目前公开的、规模约 20 万条、质量极高的指令式图像编辑数据集。它通过大模型自动生成并严格后处理,提供了高分辨率、指令多样且对齐精准的图像‑文本对,为提升指令式图像编辑模型的能力提供了坚实的数据基础。若你从事图像编辑、跨模态学习或相关创意应用,HQ‑Edit 是一个值得优先尝试的资源。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!