SACap‑1M 数据集概览
项目 | 详细信息 |
---|---|
规模 | 包含 1 000 000 张高分辨率图像,约 5.9 百万个分割实体。 |
数据来源 | 基于 Meta AI 发布的 Segment Anything (SA‑1B) 图像库,经过质量筛选(图像尺寸、宽高比、LAION‑Aesthetics ≥ 5 等条件)后构建。 |
标注方式 | 1. 自动提取每张图像的顶层分割掩码,去除嵌套、面积小于 1% 的噪声掩码,保留每图 1‑20 个实体。 2. 使用开源大规模视觉语言模型 Qwen2‑VL‑72B 为每个实体生成自然语言描述(平均约 14.1 词/实体)。 3. 同时为整张图像生成全局描述(平均约 58.6 词/图)。 |
任务类型 | 主要用于 开放式 Segmentation‑Mask‑to‑Image (S2I) 生成任务,支持细粒度的形状控制、语义控制和属性隔离等条件。 |
与其他数据集的区别 | - 开放集合:不限定类别词表,能够描述任意实体,适配更广的视觉概念。 - 细粒度标注:每个分割实体都有独立的自然语言描述,远超仅提供类别标签的 COCO‑Stuff、ADE20K 等数据集。 - 规模优势:1 M 图像、5.9 M 实体,显著大于现有的 S2I 数据集(多数仅几万图像)。 - 自动化流水线:利用最新视觉语言模型实现大规模、统一的区域标注,降低人工成本。 - 配套评估集:提供 SACap‑Eval(约 4 000 条详细提示),专为开放式 S2I 质量评估设计。 |
主要应用 | 用于训练和评估开放式 S2I 模型(如 Seg2Any),推动在保持精确形状、语义一致性和属性隔离方面的研究进展。 |
以上信息来源于最新的研究论文《Seg2Any: Open‑set Segmentation‑Mask‑to‑Image Generation with Precise Shape and Semantic Control》,该论文对 SACap‑1M 数据集的构建细节、规模以及与其他数据集的对比进行了系统阐述.
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!