什么是DPG‑Bench基准测试

AI解读 1小时前 硕雀
2 0

DPG‑BenchDense Prompt Graph Benchmark)
DPG‑Bench 是专为 文本到图像生成模型 设计的评测套件,核心目标是衡量模型在 复杂、密集提示(dense prompts)‍ 下的语义对齐与指令遵循能力。

关键特性 说明
提示复杂度 包含 1 000 余条长文本提示,每条描述多个对象、属性以及空间关系,远超传统的单对象或简短描述的基准。
评测维度 语义对齐:生成图像是否准确捕捉提示中的所有实体与属性。
指令遵循:模型对细粒度指令(如颜色、材质、布局)的执行程度。
多模态一致性:文字与图像在整体风格、构图上的一致性。
适用模型 主要用于评估 文生图(text‑to‑image)‍ 大模型,如 CogView 4、DeepSeek Janus‑Pro、Stable Diffusion 3 等。
评价方式 采用人工评分与自动指标相结合的方式,给出 综合得分属性匹配率关系准确率 等细分指标。
影响力 已成为开源文生图模型的 事实标准,多篇技术报告和媒体报道将其列为衡量模型 SOTA(state‑of‑the‑art)的关键基准。

典型成绩

  • CogView 4‑6B 在 DPG‑Bench 中获得最高综合得分,成为开源文生图模型的标杆。
  • DeepSeek Janus‑Pro‑7B 在该基准上也取得了约 84 % 的准确率,显示出对复杂指令的强大理解能力。

获取 DPG‑Bench 数据集与评测代码

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!