广义引用表达分割(Generalized Referring Expression Segmentation,简称 GRES)概述
1. 什么是 GRES?
GRES 是在视觉‑语言多模态任务 Referring Expression Segmentation(RES) 基础上提出的扩展任务。它要求 根据自然语言表达式在图像中分割出所有被指代的目标对象,而不仅限于单一目标。表达式可以指向:
- 零个目标(no‑target),即描述的对象在图像中不存在;
- 一个目标(single‑target),与传统 RES 相同;
- 多个目标(multi‑target),一次性指向若干对象。
因此,GRES 需要模型能够 同时处理计数、复合关系、属性范围以及不存在的情况,显著提升了任务的实用性和灵活性。
2. 任务动机与挑战
传统 RES 的局限 | GRES 的改进 |
---|---|
只能处理单目标表达式,无法应对 “所有红色的车” 或 “没有出现的猫” 等情况 | 支持 任意数量 的目标对象,覆盖 多目标 与 无目标 表达式 |
数据集(如 RefCOCO 系列)几乎不含多目标或无目标样本,导致模型在真实场景中表现不佳 | 构建 gRefCOCO 大规模数据集,包含 278,232 条表达式,其中 80,022 条为多目标、32,202 条为无目标 |
传统模型不需要显式建模目标之间的关系 | GRES 需要 复杂的关系建模(计数、并列、排除、属性范围等),以及 目标不存在的判别 |
3. 关键数据集:gRefCOCO
- 规模:278,232 条表达式,覆盖 19,994 张图像,涉及 60,287 个不同物体。
- 类别:
- 单目标表达式(约 166,000 条)
- 多目标表达式(约 80,022 条)
- 无目标表达式(约 32,202 条)
- 难点:
- 计数表达式:区分基数词与序数词(如 “two” 与 “second”)并实现计数能力。
- 复合句结构:处理 “A and B”、 “A except B”、 “A with B or C” 等逻辑关系。
- 属性范围:如 “所有红色的车”。
4. 主流模型与技术路线
4.1 ReLA(Region‑Language Attention)
- 核心思想:将图像划分为若干 子实例区域,通过 区域‑区域 与 区域‑语言 双向注意力模块,显式建模 区域之间的长程依赖 与 语言对每个区域的指向关系。
- 优势:在 GRES 与传统 RES 上均取得 最新的性能,尤其在多目标和无目标表达式上表现突出。
4.2 其他方法
-
- GSVA:利用 **
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!