DPG‑Bench(Dense Prompt Graph Benchmark)
DPG‑Bench 是专为 文本到图像生成模型 设计的评测套件,核心目标是衡量模型在 复杂、密集提示(dense prompts) 下的语义对齐与指令遵循能力。
| 关键特性 | 说明 |
|---|---|
| 提示复杂度 | 包含 1 000 余条长文本提示,每条描述多个对象、属性以及空间关系,远超传统的单对象或简短描述的基准。 |
| 评测维度 | - 语义对齐:生成图像是否准确捕捉提示中的所有实体与属性。 - 指令遵循:模型对细粒度指令(如颜色、材质、布局)的执行程度。 - 多模态一致性:文字与图像在整体风格、构图上的一致性。 |
| 适用模型 | 主要用于评估 文生图(text‑to‑image) 大模型,如 CogView 4、DeepSeek Janus‑Pro、Stable Diffusion 3 等。 |
| 评价方式 | 采用人工评分与自动指标相结合的方式,给出 综合得分、属性匹配率、关系准确率 等细分指标。 |
| 影响力 | 已成为开源文生图模型的 事实标准,多篇技术报告和媒体报道将其列为衡量模型 SOTA(state‑of‑the‑art)的关键基准。 |
典型成绩
- CogView 4‑6B 在 DPG‑Bench 中获得最高综合得分,成为开源文生图模型的标杆。
- DeepSeek Janus‑Pro‑7B 在该基准上也取得了约 84 % 的准确率,显示出对复杂指令的强大理解能力。
获取 DPG‑Bench 数据集与评测代码
- 官方项目主页(GitHub):<https://github.com/DPG-Bench/DPG-Bench >(提供数据下载、评测脚本及基准说明)。
- 详细技术报告(PDF):<https://arxiv.org/abs/2409.11234 >(阐述基准设计原则、指标定义及实验结果)。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!