GLIP(Grounded Language‑Image Pre‑training)概述
GLIP 是由微软研究院等团队提出的一种多模态预训练框架,旨在学习 对象级、语言感知且语义丰富的视觉表征。它通过 统一目标检测(Unified object detection)和短语定位(phrase grounding)任务,把图像与自然语言的对应关系从图像‑文本对的整体层面提升到 细粒度的区域‑短语对齐,从而兼顾图像分类、目标检测、开放词汇检测等多种视觉任务。
1. 背景与动机
- CLIP 能在大规模图像‑文本对上学习图像级语义,但缺乏对 对象级细粒度 的理解,难以直接用于目标检测、分割等任务。
- 为了让模型在 零样本/少样本 场景下也能定位具体物体,需要把 检测任务重新表述为语言‑视觉对齐,即让模型学习“句子中的短语 ↔ 图像中的区域”对应关系。
2. 核心思想:检测 ↔ 短语定位的统一
- 统一公式:把目标检测的分类+定位损失统一为 短语对齐得分(
S_ground = O·Pᵀ
),其中O
为视觉特征,P
为文本短语特征。 - 检测即无上下文的短语定位,而 短语定位是带上下文的检测,两者在训练与推理阶段是等价的。
- 这种统一让模型 可以同时使用检测标注和短语定位标注,互相促进,提高了数据利用率。
3. 模型架构与关键技术
组件 | 作用 |
---|---|
视觉编码器(如 Swin‑Transformer、DyHead) | 提取图像区域特征 O |
文本编码器(BERT) | 将输入的 prompt(类别名称或完整句子)转化为短语特征 P |
深度跨模态融合(Deep Fusion) | 在编码的后几层通过多头注意力将 O 与 P 交互,使模型具备 语言感知的视觉特征 |
统一损失(分类 + 定位 → 对齐损失) | 同时优化检测和短语定位目标,支持 零样本检测 与 少样本微调 |
4. 训练数据与规模
- 人工标注:约 300 万张带框‑短语的图像(GoldG+ 数据集)。
- 自监督扩展:利用 2400 万张网络抓取的 image‑text 对,通过教师模型生成伪框(self‑training),形成 语义丰富的 grounding 数据。
- 总规模:约 2700 万条 grounding 数据,实现了大规模跨模态预训练。
5. 主要模型变体与性能
变体 | 骨干网络 | 零样本 COCO AP | 微调 COCO AP | 备注 |
---|---|---|---|---|
GLIP‑T | Swin‑Tiny | 46.7 | 55.2 | 参数最小,适合资源受限场景 |
GLIP‑L | Swin‑Large | 49.8 | 60.8 (val) / 61.5 (test‑dev) | 参数最多,性能最佳 |
GLIP‑L (加入 COCO 预训练) | Swin‑Large + COCO | — | 61.5 | 进一步提升 |
- 在 LVIS、Flickr30K Entities 等长尾或短语定位基准上,GLIP 同样取得 显著优势,尤其在 稀有类别 上提升 4–5 AP。
- 零样本检测:即使模型未见过目标检测数据,也能通过文本提示实现竞争力的检测结果,超过许多传统监督模型。
6. 推理与迁移方式
- 直接 Prompt 推理:在检测时提供包含所有类别名称的文本串(如 “person, car, dog, …”),模型依据语言提示定位对应物体,实现 开放词汇检测。
- Prompt Tuning:仅微调文本提示的嵌入向量即可适配新任务,显著降低参数量并保持高性能。
- 线性探针(Linear Probing):仅微调检测头,快速迁移到特定数据集。
7. 典型应用与扩展
- 通用目标检测:在 COCO、LVIS、Objects365 等数据集上实现 SOTA 结果。
- 跨域零样本检测:通过更具描述性的 Prompt(如 “flat and round”)提升对新概念(如 “stingray”)的检测能力。
- 医学影像:衍生的 CT‑GLIP 将该框架扩展到 3D CT 扫描与放射学报告的对齐,实现全身影像的语言‑视觉预训练。
- 少样本微调:在仅有少量标注的任务上,利用语言提示即可获得接近全监督的检测效果。
8. 关键贡献总结
- 统一检测与短语定位,实现了跨任务的 语言感知视觉表征。
- 深度跨模态融合,提升了视觉特征的语言可解释性。
- 大规模自监督 grounding 数据,让模型在 零样本/少样本 场景下仍保持强泛化。
- 灵活的 Prompt‑Driven 迁移,支持开放词汇检测和快速任务适配。
GLIP 的出现标志着从 图像‑文本对齐 向 对象‑短语对齐 的重要跃迁,为多模态视觉语言模型在实际应用中的可扩展性和数据效率提供了新的范式。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!