什么是广义引用表达分割(GRES)

AI解读 5小时前 硕雀
3 0

广义引用表达分割Generalized Referring Expression Segmentation,简称 GRES)概述


1. 什么是 GRES?

GRES 是在视觉‑语言多模态任务 Referring Expression Segmentation(RES)‍ 基础上提出的扩展任务。它要求 根据自然语言表达式在图像中分割出所有被指代的目标对象,而不仅限于单一目标。表达式可以指向:

  • 零个目标(no‑target),即描述的对象在图像中不存在;
  • 一个目标(single‑target),与传统 RES 相同;
  • 多个目标(multi‑target),一次性指向若干对象。

因此,GRES 需要模型能够 同时处理计数、复合关系、属性范围以及不存在的情况,显著提升了任务的实用性和灵活性。


2. 任务动机与挑战

传统 RES 的局限 GRES 的改进
只能处理单目标表达式,无法应对 “所有红色的车” 或 “没有出现的猫” 等情况 支持 任意数量 的目标对象,覆盖 多目标 与 无目标 表达式
数据集(如 RefCOCO 系列)几乎不含多目标或无目标样本,导致模型在真实场景中表现不佳 构建 gRefCOCO 大规模数据集,包含 278,232 条表达式,其中 80,022 条为多目标、32,202 条为无目标
传统模型不需要显式建模目标之间的关系 GRES 需要 复杂的关系建模(计数、并列、排除、属性范围等),以及 目标不存在的判别

3. 关键数据集:gRefCOCO

  • 规模:278,232 条表达式,覆盖 19,994 张图像,涉及 60,287 个不同物体。
  • 类别
    • 单目标表达式(约 166,000 条)
    • 多目标表达式(约 80,022 条)
    • 无目标表达式(约 32,202 条)
  • 难点
    1. 计数表达式:区分基数词与序数词(如 “two” 与 “second”)并实现计数能力。
    2. 复合句结构:处理 “A and B”、 “A except B”、 “A with B or C” 等逻辑关系。
    3. 属性范围:如 “所有红色的车”。

4. 主流模型与技术路线

4.1 ReLA(Region‑Language Attention)

  • 核心思想:将图像划分为若干 子实例区域,通过 区域‑区域 与 区域‑语言 双向注意力模块,显式建模 区域之间的长程依赖 与 语言对每个区域的指向关系
  • 优势:在 GRES 与传统 RES 上均取得 最新的性能,尤其在多目标和无目标表达式上表现突出。

4.2 其他方法

    • GSVA:利用 **
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!