什么是GEdit-Bench

GEdit‑Bench 简介

GEdit‑Bench 是面向真实用户需求的图像编辑基准测试套件,旨在为图像编辑模型提供更贴近实际使用场景的评估手段。它由超过 1 000 条真实用户编辑请求中精选的 606 对“参考图像‑指令”构成,覆盖多种编辑场景和任务,能够全面衡量模型在实际图像编辑中的表现。

1. 设计初衷与意义

  • 真实感:基准数据来源于真实用户的编辑需求,而非合成或人工构造的指令,因而能够反映模型在实际产品中的使用效果。
  • 多样性:包括添加、删除、替换、计数、关系、动作等六大编辑类别,覆盖从局部细节修改到全局风格调整的广泛场景。
  • 综合评估:不仅关注生成图像的感知质量,还强调语义一致性(模型是否准确理解并执行指令)以及编辑后未修改区域的保持情况。

2. 组成结构

组成要素 说明
参考图像‑指令对 606 条对,均来自真实用户编辑示例,配有对应的编辑指令文本
编辑类别 Action、Add、Counting、Relation、Remove、Replace 等六类,确保任务覆盖面
评估指标 语义一致性(Semantic Consistency, SC):模型对指令的遵循程度
感知质量(Perceptual Quality, PQ):编辑后图像的视觉质量
综合得分:综合上述指标的加权结果
评测流程 自动化评分(如使用 GPT‑4.1 进行评分)+ 人工质检示例,以提供更细致的评估报告

3. 使用方式

  1. 获取基准数据:在 GitHub 或模型社区(如 HuggingFace、ModelScope)下载 GEdit‑Bench 数据集及评测脚本。
  2. 模型推理:对每条参考图像‑指令对运行模型,生成编辑后的图像。
  3. 评分:使用官方提供的评测代码(EVAL.md)自动计算 SC、PQ 等指标,或自行调用对应的评分模型(如 GPT‑4.1)进行打分。
  4. 对比分析:将模型得分与公开的基准结果(如 Step1X‑Edit、Skywork UniPic 等)进行对比,评估相对优势。

4. 关键成果与影响

  • 推动开源模型进步:在 GEdit‑Bench 上,Step1X‑Edit 等开源模型的表现已接近商业化的 GPT‑4o、Gemini 2.0 Flash,标志着开源图像编辑技术的显著提升。
  • 行业标准化:由于其真实、全面的特性,GEdit‑Bench 正逐渐成为业界评估图像编辑模型的事实标准,被多篇最新研究引用并作为主要评测套件。
  • 促进多模态研究:该基准不仅用于图像编辑,还被用于统一多模态理解与生成模型的评估,帮助研究者衡量模型在指令驱动编辑任务上的整体能力。

5. 适用场景

  • 模型研发:评估新提出的图像编辑网络或统一多模态模型的实际编辑能力。
  • 产品测试:在图像编辑类产品(如在线修图、AI 绘图工具)上线前进行真实场景的性能验证。
  • 学术对比:在论文中提供客观、可复现的基准结果,便于不同方法的公平比较。

总结
GEdit‑Bench 通过真实用户编辑请求构建的 606 条图像‑指令对,提供了语义一致性、感知质量等多维度的评估指标,已成为衡量图像编辑模型实用性和技术水平的重要基准。它的出现不仅提升了开源模型的竞争力,也为多模态研究提供了统一、可靠的评测平台。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!