什么是广义引用表达分割（GRES）

AI解读 5个月前硕雀

43 0 0

GRES 是在视觉‑语言多模态任务 Referring Expression Segmentation（RES）‍ 基础上提出的扩展任务。它要求 根据自然语言表达式在图像中分割出所有被指代的目标对象，而不仅限于单一目标。表达式可以指向：

因此，GRES 需要模型能够 同时处理计数、复合关系、属性范围以及不存在的情况，显著提升了任务的实用性和灵活性。

传统 RES 的局限	GRES 的改进
只能处理单目标表达式，无法应对 “所有红色的车” 或 “没有出现的猫” 等情况	支持任意数量的目标对象，覆盖多目标与无目标表达式
数据集（如 RefCOCO 系列）几乎不含多目标或无目标样本，导致模型在真实场景中表现不佳	构建 gRefCOCO 大规模数据集，包含 278,232 条表达式，其中 80,022 条为多目标、32,202 条为无目标
传统模型不需要显式建模目标之间的关系	GRES 需要复杂的关系建模（计数、并列、排除、属性范围等），以及目标不存在的判别

规模：278,232 条表达式，覆盖 19,994 张图像，涉及 60,287 个不同物体。
类别：
- 单目标表达式（约 166,000 条）
- 多目标表达式（约 80,022 条）
- 无目标表达式（约 32,202 条）
难点：
1. 计数表达式：区分基数词与序数词（如 “two” 与 “second”）并实现计数能力。
2. 复合句结构：处理 “A and B”、 “A except B”、 “A with B or C” 等逻辑关系。
3. 属性范围：如 “所有红色的车”。

核心思想：将图像划分为若干 子实例区域，通过 区域‑区域 与 区域‑语言 双向注意力模块，显式建模 区域之间的长程依赖 与 语言对每个区域的指向关系。
优势：在 GRES 与传统 RES 上均取得 最新的性能，尤其在多目标和无目标表达式上表现突出。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！