什么是SACap-1M数据集

AI资讯 2个月前硕雀

39 0 0

SACap‑1M 数据集概览

项目	详细信息
规模	包含 1 000 000 张高分辨率图像，约 5.9 百万个分割实体。
数据来源	基于 Meta AI 发布的 Segment Anything (SA‑1B) 图像库，经过质量筛选（图像尺寸、宽高比、LAION‑Aesthetics ≥ 5 等条件）后构建。
标注方式	1. 自动提取每张图像的顶层分割掩码，去除嵌套、面积小于 1% 的噪声掩码，保留每图 1‑20 个实体。 2. 使用开源大规模视觉语言模型 Qwen2‑VL‑72B 为每个实体生成自然语言描述（平均约 14.1 词/实体）。 3. 同时为整张图像生成全局描述（平均约 58.6 词/图）。
任务类型	主要用于开放式 Segmentation‑Mask‑to‑Image (S2I) 生成任务，支持细粒度的形状控制、语义控制和属性隔离等条件。
与其他数据集的区别	- 开放集合：不限定类别词表，能够描述任意实体，适配更广的视觉概念。 - 细粒度标注：每个分割实体都有独立的自然语言描述，远超仅提供类别标签的 COCO‑Stuff、ADE20K 等数据集。 - 规模优势：1 M 图像、5.9 M 实体，显著大于现有的 S2I 数据集（多数仅几万图像）。 - 自动化流水线：利用最新视觉语言模型实现大规模、统一的区域标注，降低人工成本。 - 配套评估集：提供 SACap‑Eval（约 4 000 条详细提示），专为开放式 S2I 质量评估设计。
主要应用	用于训练和评估开放式 S2I 模型（如 Seg2Any），推动在保持精确形状、语义一致性和属性隔离方面的研究进展。

以上信息来源于最新的研究论文《Seg2Any: Open‑set Segmentation‑Mask‑to‑Image Generation with Precise Shape and Semantic Control》，该论文对 SACap‑1M 数据集的构建细节、规模以及与其他数据集的对比进行了系统阐述.

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！