维度 | 关键内容 | 说明 |
---|---|---|
定位 | 用于评估 指令驱动的图像编辑模型(如 EmuEdit、MagicBrush、InstructPix2Pix 等)在遵循用户指令、保持原图视觉保真度方面的表现。 | 通过统一的测试集,直接对比不同模型的编辑质量 |
任务类型 | 包含 七大编辑任务: 1. 背景修改(Background) 2. 全局图像修改(Global) 3. 风格修改(Style) 4. 对象移除(Remove) 5. 对象添加(Add) 6. 局部修改(Local) 7. 颜色/纹理修改(Texture) |
任务划分来源于对真实编辑需求的细粒度抽象,确保覆盖常见的图像编辑场景 |
数据构成 | - 指令 + 输入图像 + 目标图像 + 任务标签 四元组 - 为每个任务提供 遮罩(mask),帮助评估局部编辑的准确性 - 指令由微调的大语言模型(LLM)自动生成,再经人工验证以保证质量 - 通过 mask‑based attention control、P2P 与 DiffEdit 技术生成高质量的图像对 |
|
规模与质量 | - 采用 低偏差、高多样性 的采样策略,确保数据分布均衡 - 为每种编辑类型手动挑选 约 50 条高质量样本(AnyEdit‑Test 中的抽样),形成更具挑战性的评估子集 - 整体测试集规模在 数千对 以上,足以支撑统计显著的对比实验 |
|
评估指标 | - 语义相似度:CLIP‑image(CLIPim)与 CLIP‑output(CLIPout) - 视觉相似度:DINO、L1 距离等低层像素度量 - 这些指标共同衡量 指令遵从度 与 图像保真度 的平衡 |
|
使用方式 | 1. 给定指令和原图,模型生成编辑后图像 2. 通过遮罩对比编辑区域与目标区域的相似度 3. 计算上述指标,得到量化分数 4. 与基准模型(MagicBrush、InstructPix2Pix 等)进行横向比较 |
|
核心价值 | - 低偏差:采集方式避免单一来源导致的偏差 - 高多样性:七类任务覆盖广泛编辑需求 - 可扩展性:任务嵌入(task embedding)与任务反向(task inversion)机制,使模型在少量样本下即可学习新编辑任务 - 统一评估:为整个指令编辑社区提供统一、可复现的评测平台,推动技术进步 |
|
研究成果 | - EmuEdit 在该基准上取得 SOTA(state‑of‑the‑art)成绩,尤其在 多轮编辑稳定性 与 细粒度控制 上表现突出 - 多篇后续工作(如 UltraEdit、UniVG)均以 EmuEdit 基准作为主要评测对象,验证其行业影响力 |
小结
EmuEdit 基准测试是 Meta 推出的面向指令驱动图像编辑的专业评测套件。它通过 七类细分编辑任务、指令‑图像‑目标‑遮罩四元组 以及 语义/视觉相似度指标,为研究者提供了一个 低偏差、高多样性、可扩展 的统一平台,用以衡量模型在 遵循自然语言指令 与 保持原图视觉质量 两方面的综合能力。该基准已被广泛采用,成为评估新一代图像编辑模型(如 EmuEdit、MagicBrush、UltraEdit 等)的事实标准。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!