1. 什么是 SAM
Segment Anything Model(SAM)是 Meta AI 在 2023 年提出的通用图像分割基础模型。它能够根据用户提供的提示(prompt)——如单点、多个点、矩形框或文本——在任意图像中快速生成高质量的分割掩码,实现“分割一切”的目标。
2. 背景与动机
传统的分割模型往往需要针对特定任务或数据集进行微调,泛化能力受限。受 ChatGPT 等大模型“提示工程”思想的启发,SAM 采用 prompt‑based learning,旨在构建一个 零样本(zero‑shot) 可直接迁移到新场景的分割模型,降低标注成本并提升跨任务适用性。
3. 核心技术与模型架构
SAM 由三大模块组成:
模块 | 作用 | 关键技术 |
---|---|---|
Vision Encoder | 基于 Vision Transformer(ViT)将原始图像编码为高维特征图 | ViT‑B/ViT‑L 等不同规模的 backbone |
Prompt Encoder | 将用户的点、框、文本等提示映射为嵌入向量 | 多模态嵌入、位置编码 |
Mask Decoder | 通过 双变体 Transformer 的交叉注意力,将图像特征与提示嵌入融合,生成二值掩码并预测 IoU 置信度 | 交叉注意力、卷积上采样、Focal Loss 等 |
该结构使得模型在 实时(单张图像毫秒级)和 批量 推理下均能保持高精度。
4. 训练数据规模
SAM 采用了迄今为止最大的分割数据集 SA‑1B(Segment Anything 1‑Billion),包含 1100 万张图像 与 超过 1.1 × 10⁹ 个高质量掩码,数据来源于公开、授权或隐私安全的图像集合。大规模、丰富的标注是其强大零样本能力的根本保障。
5. 提示方式(Prompt Types)
- 点提示:单点或多点指示前景/背景。
- 框提示:矩形框限定目标区域。
- 文本提示(在后续 SAM‑2 中加入):自然语言描述目标。
- 掩码提示:已有掩码可作为进一步细化的依据。
用户只需提供任意一种或组合的提示,即可得到对应的分割结果。
6. 零样本分割能力
在未见过的图像和新类别上,SAM 仍能生成准确的掩码,常见基准(COCO、ADE20K 等)上实现 接近或超过专门微调模型 的表现,这正是其“通用分割模型”定位的核心价值。
7. 典型应用场景
- 交互式图像编辑:如 Photoshop 插件、在线分割工具。
- 医学影像:快速标注组织或病灶。
- 遥感与卫星图像:土地利用、目标检测。
- 机器人与 AR/VR:实时场景理解与交互。
- 内容创作:自动抠图、背景替换、视频分割(SAM‑2)等。
8. 资源链接(官方与重要文献)
资源 | 链接 |
---|---|
官方项目主页 & 在线 Demo | https://segment-anything.com/ |
GitHub 代码仓库(Meta 官方) | https://github.com/facebookresearch/segment-anything |
原始论文(arXiv) | https://arxiv.org/abs/2304.02643 |
SAM‑2(视频/流式分割)介绍 | https://segment-anything.com/sam2 |
综述论文(Survey) | https://arxiv.org/pdf/2306.06211.pdf |
中文技术博客(原理详解) | https://www.cnblogs.com/theseventhson/p/18523739 |
实践教程(Roboflow) | https://www.roboflow.com/blog/how-to-use-sam |
小结
SAM 通过大规模数据驱动的 prompt‑able 架构,实现了“一次点击、分割任意对象”的目标,已成为计算机视觉领域的 基础模型。其开放源码、在线演示以及丰富的生态工具,使得科研、工业和创意工作者都能快速上手并在各自场景中发挥价值。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!