| 项目 | 内容 | 说明 |
|---|---|---|
| 全称 | MagicBrush: A Manually Annotated Dataset for Instruction‑Guided Image Editing | |
| 规模 | 约 10 000 条三元组(源图像 + 自然语言指令 + 编辑后目标图像) | |
| 编辑场景 | - 单轮(single‑turn) - 多轮(multi‑turn) - 提供掩码(mask‑provided) - 不提供掩码(mask‑free) |
|
| 标注方式 | 由专业标注者在真实图片上手工完成指令、编辑结果以及可选的掩码,确保指令自然、噪声极低 | |
| 数据来源 | 真实世界图片,覆盖日常生活、室内外场景等多种内容,避免合成数据的噪声问题 | |
| 主要用途 | - 训练指令驱动的图像编辑模型(如 InstructPix2Pix、LoRA 微调) - 统一评估不同编辑模型的质量与鲁棒性 - 支持研究单步、多步、局部与全局编辑等多样任务 |
|
| 基准表现 | 在 MagicBrush 上微调的 InstructPix2Pix 在人类评估中显著优于零样本或自动合成数据训练的模型 | |
| 开放获取 | - 项目主页: - GitHub 代码与数据下载页面:https://osu-nlp-group.github.io/MagicBrush/ - HuggingFace 数据集仓库(训练集、验证集):https://huggingface.co/datasets/osunlp/MagicBrush - HuggingFace 上的 Fine‑tuned 检查点(InstructPix2Pix‑MagicBrush 等): |
关键特性
- 手工标注、质量可靠
与自动合成的噪声数据不同,所有指令与编辑结果均由人工标注,指令语言自然、编辑目标精准,极大降低模型训练时的误导信息。 - 多样化编辑维度
数据集覆盖对象添加、删除、替换、属性修改、局部遮罩编辑等多种操作,且同时提供单轮和多轮交互指令,适配更复杂的对话式编辑场景。 - 支持掩码与非掩码两种模式
部分样本提供编辑区域的二值掩码,帮助模型学习精准定位;另一些样本不提供掩码,考验模型的全局理解与推理能力。 - 面向大模型微调
由于规模适中(10 k 条),可直接用于 LoRA、DreamBooth 等参数高效微调方法,已在公开基准上展示出显著提升。 - 社区友好、开源可复现
项目提供完整的代码、数据下载脚本以及示例 notebook,研究者可以快速复现实验并在此基础上扩展新任务。
使用建议
- 模型训练:先下载训练集(HuggingFace),使用 Diffusion 或 Transformer‑based 图像编辑框架(如 InstructPix2Pix)进行微调;若资源受限,可采用 LoRA 只调节少量参数。
- 评估基准:利用官方提供的验证集和测试集(需密码 “MagicBrush”)进行客观评估,避免模型在训练阶段泄露测试数据。
- 跨模态研究:结合文本理解模型(如 LLaMA、ChatGPT)与视觉模型,探索指令解析与图像编辑的联合学习,利用多轮指令数据提升对话式编辑能力。
快速入口
- 项目主页(含数据概览、下载说明):<https://osu-nlp-group.github.io/MagicBrush/ >
- GitHub(代码、数据脚本、模型 checkpoint):<https://github.com/OSU-NLP-Group/MagicBrush >
- HuggingFace 数据集(训练/验证):<https://huggingface.co/datasets/osunlp/MagicBrush >
- HuggingFace Fine‑tuned 模型(InstructPix2Pix‑MagicBrush):<https://huggingface.co/osunlp/InstructPix2Pix-MagicBrush >
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!