什么是Mask Former

AI解读 32分钟前 硕雀
3 0

Mask Former 简介

Mask Former 是 Facebook AI Research(FAIR)在 2021 年提出的 统一掩码分类(mask‑classification)‍ 框架,用于 语义分割实例分割全景分割 等多种图像分割任务。它把分割问题转化为 ‍“预测一组二进制掩码 + 对应全局类别标签”‍ 的集合预测,而不是传统的像素级分类或逐对象的检测‑分割两步流程。该思路直接受 DETR 的集合预测机制启发,并在此基础上加入了专门的 像素解码器(pixel decoder)‍ 与 Transformer 解码器,实现了端到端、无需额外后处理(如 NMS)的分割。


1. 核心架构

模块 作用 关键技术
Backbone(特征提取 提取多尺度特征图(如 ResNet、Swin‑Transformer) CNN / Vision‑Transformer
Pixel Decoder(像素解码器) 将低分辨率特征上采样、融合,生成 高分辨率像素嵌入 多尺度特征金字塔、跨尺度注意力
Transformer Decoder(查询解码器) 接收 可学习的查询向量(N 条)并与像素嵌入进行 跨注意力,输出 段嵌入(mask embedding) 标准 Transformer 编码‑解码结构
Mask Head 将段嵌入与像素嵌入点积得到 二进制掩码,再经 Sigmoid 生成最终掩码;同时输出 类别预测 掩码分类头、二元交叉熵 + 分类交叉熵损失
Set‑based Matching 使用 Hungarian 匹配 将预测集合与真实标注一一对应,保证每个预测唯一 与 DETR 相同的全局集合损失

整体流程:Backbone → Pixel Decoder → Transformer Decoder (N queries) → Mask Head,最终得到 N 组 (mask, class),其中无效的查询会被预测为 “no‑object”。


2. 关键创新点

  1. 掩码分类范式:把分割视为集合预测,统一了语义、实例、全景三大任务,避免了为每种任务单独设计网络结构。
  2. 端到端训练:无需额外的 ROI‑Align、NMS 等手工模块,整个系统可直接通过梯度优化。
  3. 跨尺度像素解码:通过像素解码器提升掩码分辨率,使得细粒度边界更准确。
  4. 可扩展查询数:查询数量 N 与类别数无直接耦合,模型在类别数量大时仍保持竞争力(如 ADE20K 上的 150 类)。

3. 性能表现(主要公开基准)

数据集 任务 关键指标 结果
ADE20K 语义分割 mIoU 55.6(MaskFormer)
COCO 实例分割 AP / PQ 52.7 AP52.7 PQ(MaskFormer)
COCO‑Stuff 全景分割 PQ 52.7(MaskFormer)
Cityscapes 语义分割 mIoU 超过 50%(Mask2Former 进一步提升)

后续的 Mask2Former 在上述基准上进一步提升了 2–3% 的 PQ/IoU,主要得益于 遮蔽注意力(masked attention)‍ 与更高效的解码器设计。


4. 发展与衍生工作

变体 目标 主要改进
Mask2Former 提升大规模分割性能 引入 masked‑attention,加速收敛并降低显存占用
PEM (Prototype‑based Efficient MaskFormer) 在边缘设备上实现高效推理 采用 原型‑跨注意力 与轻量化像素解码器,FPS 提升约 2×,PQ 仍保持竞争水平
MaskFormer‑EfficientNet (MFENet) 将 EfficientNet 与 MaskFormer 结合用于人群计数 在 Crowd‑Counting 数据集上实现更高的计数精度
MaskFormer‑V2(改进的像素解码器) 进一步提升小目标分割 引入 Swin‑Transformer 作为 backbone,提升细粒度特征表达

这些衍生工作证明了 Mask Former 框架的 可扩展性 与 通用性


5. 开源实现与使用指南

资源 链接 说明
原始论文(arXiv) https://arxiv.org/abs/2107.06278 详细理论、实验与代码指引
官方 GitHub(FAIR) https://github.com/facebookresearch/MaskFormer

(可在 open‑mmlab/mmdetection 中找到对应实现)

包含 PyTorch 代码、预训练 checkpoint
HuggingFace 示例 https://huggingface.co/docs/transformers

/model_doc/maskformer

一行代码加载模型、Fine‑tune 示例
Mask2Former 代码 https://github.com/facebookresearch

/Mask2Former (同样在 mmdetection 中维护)

支持 panoptic、instance、semantic 三任务
PEM 论文 & 代码 https://github.com/NiccoloCavagnero/PEM (代码) & https://arxiv.org/abs/2402.19422 轻量化实现,适合边缘部署
MaskFormer 在遥感/医学等领域的案例 https://quantumailabs.net/using-maskformer-for-images-with-overlapping-objects/ (遥感)、https://www.pyimagesearch.com/2023/03/13/train-a-maskformer-segmentation-model-with-hugging-face-transformers/ (医学影像) 展示实际应用场景

6. 典型应用场景

  1. 医学影像分割:如肺部结节、病灶区域的精准掩码;利用统一的 mask‑classification 可同时得到器官分割与病灶实例。
  2. 遥感与卫星图像:对重叠建筑、道路、林地等目标进行全景分割,MaskFormer 的集合预测在处理密集、重叠目标时表现尤佳。
  3. 自动驾驶:道路、行人、车辆等多类别分割,统一模型简化感知流水线。
  4. 人群计数与安防:结合 EfficientNet 的轻量化版本,可在拥挤场景中实现高精度实例计数。
  5. 工业检测:对缺陷、零件进行实例分割,MaskFormer 的高分辨率掩码有助于细小缺陷的定位。

7. 小结

Mask Former 通过 掩码分类 + 集合预测 的创新思路,成功统一了多种图像分割任务,摆脱了传统像素分类的局限。其核心由 Backbone → Pixel Decoder → Transformer Decoder → Mask Head 组成,配合 Hungarian 匹配 实现端到端训练。自 2021 年发布以来,Mask Former 已衍生出 Mask2Former、PEM、MaskFormer‑EfficientNet 等多种高效变体,并在 ADE20K、COCO、Cityscapes 等基准上取得领先成绩。官方代码、HuggingFace 接口以及丰富的社区教程,使得研究者和工程师能够快速上手并在医学、遥感、自动驾驶等实际场景中部署。

关键链接

如需进一步的代码示例或在特定数据集上的微调指南,可参考上述 HuggingFace 文档或官方 repo 中的 README。祝您实验顺利!

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!