什么是Segment Anything Model(SAM)

AI解读 3小时前 硕雀
5 0

Segment Anything ModelSAM)概述


1. 什么是 SAM

Segment Anything Model(SAM)是 Meta AI 在 2023 年提出的通用图像分割基础模型。它能够根据用户提供的提示(prompt)‍——如单点、多个点、矩形框或文本——在任意图像中快速生成高质量的分割掩码,实现“分割一切”的目标。

2. 背景与动机

传统的分割模型往往需要针对特定任务或数据集进行微调,泛化能力受限。受 ChatGPT 等大模型“提示工程”思想的启发,SAM 采用 prompt‑based learning,旨在构建一个 零样本(zero‑shot)‍ 可直接迁移到新场景的分割模型,降低标注成本并提升跨任务适用性。

3. 核心技术与模型架构

SAM 由三大模块组成:

模块 作用 关键技术
Vision Encoder 基于 Vision TransformerViT)将原始图像编码为高维特征图 ViT‑B/ViT‑L 等不同规模的 backbone
Prompt Encoder 将用户的点、框、文本等提示映射为嵌入向量 多模态嵌入、位置编码
Mask Decoder 通过 双变体 Transformer 的交叉注意力,将图像特征与提示嵌入融合,生成二值掩码并预测 IoU 置信度 交叉注意力、卷积上采样、Focal Loss

该结构使得模型在 实时(单张图像毫秒级)和 批量 推理下均能保持高精度。

4. 训练数据规模

SAM 采用了迄今为止最大的分割数据集 SA‑1B(Segment Anything 1‑Billion),包含 1100 万张图像 与 超过 1.1 × 10⁹ 个高质量掩码,数据来源于公开、授权或隐私安全的图像集合。大规模、丰富的标注是其强大零样本能力的根本保障。

5. 提示方式(Prompt Types)

  • 点提示:单点或多点指示前景/背景。
  • 框提示:矩形框限定目标区域。
  • 文本提示(在后续 SAM‑2 中加入):自然语言描述目标。
  • 掩码提示:已有掩码可作为进一步细化的依据。

用户只需提供任意一种或组合的提示,即可得到对应的分割结果。

6. 零样本分割能力

在未见过的图像和新类别上,SAM 仍能生成准确的掩码,常见基准(COCO、ADE20K 等)上实现 接近或超过专门微调模型 的表现,这正是其“通用分割模型”定位的核心价值。

7. 典型应用场景

  • 交互式图像编辑:如 Photoshop 插件、在线分割工具。
  • 医学影像:快速标注组织或病灶。
  • 遥感与卫星图像:土地利用、目标检测
  • 机器人与 AR/VR:实时场景理解与交互。
  • 内容创作:自动抠图、背景替换、视频分割(SAM‑2)等。

8. 资源链接(官方与重要文献)

资源 链接
官方项目主页 & 在线 Demo https://segment-anything.com/
GitHub 代码仓库(Meta 官方) https://github.com/facebookresearch/segment-anything
原始论文(arXiv) https://arxiv.org/abs/2304.02643
SAM‑2(视频/流式分割)介绍 https://segment-anything.com/sam2
综述论文(Survey) https://arxiv.org/pdf/2306.06211.pdf
中文技术博客(原理详解) https://www.cnblogs.com/theseventhson/p/18523739
实践教程(Roboflow https://www.roboflow.com/blog/how-to-use-sam

小结
SAM 通过大规模数据驱动的 prompt‑able 架构,实现了“一次点击、分割任意对象”的目标,已成为计算机视觉领域的 基础模型。其开放源码、在线演示以及丰富的生态工具,使得科研、工业和创意工作者都能快速上手并在各自场景中发挥价值。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!