SACap‑Eval 是在 SACap‑1M 数据集基础上构建的评估基准,专门用于衡量 分割掩码到图像生成(Seg‑Mask‑to‑Image, S2I) 模型的质量。它由 Seg2Any 论文提出,旨在提供一个既覆盖空间位置又覆盖属性细节的综合评价体系。
1. 背景与来源
- SACap‑1M:一个规模约 100 万张图像、590 万个分割实体的大型图像分割数据集,提供了高密度、细粒度的区域和全局标题注释。
- SACap‑Eval:从 SACap‑1M 中抽取的 4 000 条样本,平均每张图像包含约 5.7 个实体,用于对 S2I 生成结果进行系统评估。
2. 评估维度
SACap‑Eval 从 两大视角 进行评估:
| 维度 | 说明 |
|---|---|
| 空间(Spatial) | 对每个分割掩码裁剪出的局部图像,使用视觉语言模型(如 Qwen2‑VL‑72B)进行视觉问答,判断目标实体是否位于该区域,答案仅为 “Yes” 或 “No”。 |
| 属性(Attribute) | 通过同一视觉语言模型提问实体的颜色、形状、纹理等属性,检验生成图像在细粒度属性控制上的准确性。 |
两类问题均采用 VLM‑based VQA 方式自动打分,能够客观量化模型在空间定位和属性表达上的表现。
3. 关键指标
- 类无关 MIoU(Class‑agnostic MIoU):衡量生成图像与真实掩码在像素层面的重叠程度。
- 区域质量指标:Spatial、Color、Shape、Texture 四个子指标,分别评估位置、颜色、形状、纹理的准确度。
- 全局质量指标:包括 IR、Pick、CLIP、FID 等,用于评估整体视觉一致性和生成图像的真实感。
在论文的消融实验中,这些指标被用于对比不同模型组件的贡献。
4. 适用场景
- 模型研发:为新提出的 S2I 方法提供统一、细粒度的评测平台。
- 属性控制研究:帮助研究者量化模型在颜色、纹理、形状等属性上的可控性。
- 开放集生成:由于数据来源于大规模、类别多样的 SACap‑1M,评估结果更具泛化意义,适用于开放集(open‑set)生成任务。
5. 公开资源
- 论文(arXiv): https://arxiv.org/abs/2506.00596
- PDF 下载: https://arxiv.org/pdf/2506.00596.pdf
- SACap‑1M 数据集说明(论文中有详细描述):同上链接的附录部分。
通过上述链接可以获取完整的基准设计、数据统计以及实验结果,帮助您深入了解 SACap‑Eval 的构建方法和评估流程。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!