什么是gRefCOCO数据集

AI解读 4小时前 硕雀
4 0

gRefCOCO 数据集概览

项目 内容 参考
全称 Generalized Referring Expression COCO(广义引用表达式分割数据集
任务定位 用于 Generalized Referring Expression Segmentation (GRES),即让表达式可以指代 任意数量 的目标(单目标、多目标无目标
数据来源 基于 MS‑COCO 图像,采用在线标注平台从 COCO 中抽取图像并编写/验证自然语言表达式
规模 • 278 232 条表达式
• 80 022 条 多目标 表达式
• 32 202 条 无目标 表达式
• 覆盖 19 994 张图像、60 287 个不同实例
标注类型 每个目标提供 分割掩码(mask)‍ 与 边界框(bbox)‍;无目标表达式仅标记为 “no‑target”
数据划分 RefCOCO 相同的 UNC 划分,四个不重叠子集:train、val、testA、testB。train 为 RefCOCO 的超集,val / testA / testB 与 RefCOCO 完全一致,避免泄漏
关键难点 1. 计数表达式(区分基数词与序数词)
2. 复合句结构(如 “A and B”、 “A except B”、 “A with B or C”)
3. 多目标之间的属性、关系推理
与其他数据集对比 - RefCOCO / RefCOCO+ 只含单目标表达式
- G‑Ref(RefCOCOg)虽更长但仍单目标
gRefCOCO 首次系统加入多目标与无目标样本,显著提升任务的现实适用性
主要应用 广义引用表达分割(GRES)‍ 研究
- 多目标视觉语言理解
- 无目标(negative)查询的鲁棒性评估
- 作为基准推动 Vision‑Language 模型在更复杂语言指令下的表现
获取方式 1. GitHub 项目(代码、数据下载脚本、说明)
https://github.com/henghuiding/gRefCOCO
2. 论文 PDFCVPR 2023 Highlight)
https://openreview.net/pdf?id=wHLDHRkmEu (可在 CVPR 2023 论文页面获取)
3. NTU 论文/学位论文(完整数据统计与划分细节)
https://dr.ntu.edu.sg/bitstream/10356/175477/2/Thesis_Liu%20Chang_submit_compress.pdf

简要说明

gRefCOCO 是新加坡南洋理工大学(NTU)在 2023 年 CVPR 上提出的 广义引用表达分割(GRES)‍ 数据集。它在传统 RefCOCO 系列的基础上,扩展了表达式的指代范围:不仅可以指向单个对象,还可以一次性指向 多个对象,甚至可以给出 不对应任何对象的表达式(no‑target)。为此,数据集在标注上提供了所有目标的 像素级分割掩码 与 边界框,并在语言层面加入计数、复合句等更具挑战性的结构。

为什么值得关注

  • 任务更贴近真实场景:用户在实际交互中常会使用 “所有红色的杯子”“没有任何目标”等表达,gRefCOCO 正是为此设计的基准。
  • 规模大、标注完整:超过 27 万条表达式,覆盖近 2 万张图像,提供了丰富的多目标组合,便于训练大模型。
  • 兼容旧数据:部分单目标表达式直接继承自 RefCOCO,保证了与已有模型的兼容性,便于迁移学习
  • 公开可用:官方 GitHub 仓库提供下载脚本,研究者只需几行命令即可获取完整数据和基准代码,降低了复现门槛。

如需快速下载,可参考 GitHub 仓库的 README 中的说明,执行 python download_grefcoco.py(需先安装 torchdetectron2 等依赖),即可得到 train/val/testA/testB 四个子集的图像、标注文件以及对应的语言表达文件。

以上即为 gRefCOCO 数据集的核心信息与获取渠道,供您在研究或项目中使用。祝实验顺利!

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!