什么是SACap-1M数据集

AI资讯 9小时前 硕雀
3 0

SACap‑1M 数据集概览

项目 详细信息
规模 包含 1 000 000 张高分辨率图像,约 5.9 百万个分割实体。
数据来源 基于 Meta AI 发布的 Segment Anything (SA‑1B) 图像库,经过质量筛选(图像尺寸、宽高比、LAION‑Aesthetics ≥ 5 等条件)后构建。
标注方式 1. 自动提取每张图像的顶层分割掩码,去除嵌套、面积小于 1% 的噪声掩码,保留每图 1‑20 个实体。
2. 使用开源大规模视觉语言模型 Qwen2‑VL‑72B 为每个实体生成自然语言描述(平均约 14.1 词/实体)。
3. 同时为整张图像生成全局描述(平均约 58.6 词/图)。
任务类型 主要用于 开放式 Segmentation‑Mask‑to‑Image (S2I) 生成任务,支持细粒度的形状控制、语义控制和属性隔离等条件。
与其他数据集的区别 开放集合:不限定类别词表,能够描述任意实体,适配更广的视觉概念。
细粒度标注:每个分割实体都有独立的自然语言描述,远超仅提供类别标签的 COCO‑Stuff、ADE20K 等数据集。
规模优势:1 M 图像、5.9 M 实体,显著大于现有的 S2I 数据集(多数仅几万图像)。
自动化流水线:利用最新视觉语言模型实现大规模、统一的区域标注,降低人工成本。
配套评估集:提供 SACap‑Eval(约 4 000 条详细提示),专为开放式 S2I 质量评估设计。
主要应用 用于训练和评估开放式 S2I 模型(如 Seg2Any),推动在保持精确形状、语义一致性和属性隔离方面的研究进展。

以上信息来源于最新的研究论文《Seg2Any: Open‑set Segmentation‑Mask‑to‑Image Generation with Precise Shape and Semantic Control》,该论文对 SACap‑1M 数据集的构建细节、规模以及与其他数据集的对比进行了系统阐述.

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!