什么是HQ-Edit数据集

AI解读 8个月前 硕雀
81 0

HQ‑Edit 数据集概览

项目 内容 说明
全称 HQ‑Edit: A High‑Quality and High‑Coverage Dataset for General Image Editing
规模 大约 19.7 万条编辑实例(每条包含输入图像、输出图像和详细编辑指令)
数据来源 采用 GPT‑4V 与 DALL‑E 3 进行自动化生成,经过扩展、生成、后处理三阶段确保图像‑文本对齐精确、分辨率高、细节丰富
主要特征 - 高分辨率、真实感强的图像
- 多样化、覆盖面广的编辑指令(如颜色修改、结构添加、风格迁移等)
- 对齐(Alignment)与连贯性(Coherence)两项质量评估指标,使用 GPT‑4V 进行量化
应用场景 - 指令式图像编辑模型(如 InstructPix2Pix、StableDiffusion‑InstructPix2Pix)微调
- 创意设计、图像修复、内容生成
- 多模态学习与评估基准
公开渠道 GitHub 项目主页:<https://github.com/UCSC-VLAA/HQ-Edit >(代码、数据下载、模型权重)
HuggingFace 镜像:<https://github.com/camenduru/HQEdit-hf >(便于在 HF 平台直接使用)
数据平台示例:<https://hyper.ai/cn/datasets/32015 >(数据概览与在线预览)
引用方式 Hui M., Yang S., Zhao B., Shi Y., Wang H., Wang P., Xie C., Zhou Y. “HQ‑Edit: A High‑Quality and High‑Coverage Dataset for General Image Editing”, 2024.

关键技术亮点

  1. 自动化高质量采集管线
    • 扩展(Expansion)‍:从网络收集 203 种种子三元组(输入描述、输出描述、编辑指令),形成多样化的编辑场景。
    • 生成(Generation)‍:利用 GPT‑4V 生成详细文本指令,DALL‑E 3 生成对应的高分辨率图像对。
    • 后处理(Post‑processing)‍:对齐图像像素、去除噪声,确保输入‑输出图像在空间上严格对应。
  2. 质量评估指标
    • Alignment:衡量指令与图像编辑结果的对应程度。
    • Coherence:评估编辑过程的连贯性与自然度。两项指标均通过 GPT‑4V 自动打分,保证数据集整体质量。
  3. 对下游模型的提升
    • 在 HQ‑Edit 上微调的 InstructPix2Pix 在多项指令式编辑基准上超越了使用传统人工标注数据微调的模型,显示出高质量合成数据的有效性。

如何使用

  • 下载:在 GitHub 项目页面的 data/ 目录中提供了完整的 JSON/COCO‑style 标注文件以及对应的图像压缩包。
  • 加载:可直接使用 datasets 库的 load_dataset("UCSC-VLAA/HQ-Edit")(已在 HuggingFace 上同步)进行加载。
  • 微调示例:官方提供了基于 StableDiffusionInstructPix2PixPipeline 的微调脚本,适配 PyTorch 与 🤗 Diffusers 框架。

总结:HQ‑Edit 是目前公开的、规模约 20 万条、质量极高的指令式图像编辑数据集。它通过大模型自动生成并严格后处理,提供了高分辨率、指令多样且对齐精准的图像‑文本对,为提升指令式图像编辑模型的能力提供了坚实的数据基础。若你从事图像编辑、跨模态学习或相关创意应用,HQ‑Edit 是一个值得优先尝试的资源。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!