项目 | 内容 | 参考 |
---|---|---|
全称 | Generalized Referring Expression COCO(广义引用表达式分割数据集) | |
任务定位 | 用于 Generalized Referring Expression Segmentation (GRES),即让表达式可以指代 任意数量 的目标(单目标、多目标、无目标) | |
数据来源 | 基于 MS‑COCO 图像,采用在线标注平台从 COCO 中抽取图像并编写/验证自然语言表达式 | |
规模 | • 278 232 条表达式 • 80 022 条 多目标 表达式 • 32 202 条 无目标 表达式 • 覆盖 19 994 张图像、60 287 个不同实例 |
|
标注类型 | 每个目标提供 分割掩码(mask) 与 边界框(bbox);无目标表达式仅标记为 “no‑target” | |
数据划分 | 与 RefCOCO 相同的 UNC 划分,四个不重叠子集:train、val、testA、testB。train 为 RefCOCO 的超集,val / testA / testB 与 RefCOCO 完全一致,避免泄漏 | |
关键难点 | 1. 计数表达式(区分基数词与序数词) 2. 复合句结构(如 “A and B”、 “A except B”、 “A with B or C”) 3. 多目标之间的属性、关系推理 |
|
与其他数据集对比 | - RefCOCO / RefCOCO+ 只含单目标表达式 - G‑Ref(RefCOCOg)虽更长但仍单目标 - gRefCOCO 首次系统加入多目标与无目标样本,显著提升任务的现实适用性 |
|
主要应用 | - 广义引用表达分割(GRES) 研究 - 多目标视觉语言理解 - 无目标(negative)查询的鲁棒性评估 - 作为基准推动 Vision‑Language 模型在更复杂语言指令下的表现 |
|
获取方式 | 1. GitHub 项目(代码、数据下载脚本、说明) https://github.com/henghuiding/gRefCOCO 2. 论文 PDF(CVPR 2023 Highlight) https://openreview.net/pdf?id=wHLDHRkmEu (可在 CVPR 2023 论文页面获取) 3. NTU 论文/学位论文(完整数据统计与划分细节) https://dr.ntu.edu.sg/bitstream/10356/175477/2/Thesis_Liu%20Chang_submit_compress.pdf |
简要说明
gRefCOCO 是新加坡南洋理工大学(NTU)在 2023 年 CVPR 上提出的 广义引用表达分割(GRES) 数据集。它在传统 RefCOCO 系列的基础上,扩展了表达式的指代范围:不仅可以指向单个对象,还可以一次性指向 多个对象,甚至可以给出 不对应任何对象的表达式(no‑target)。为此,数据集在标注上提供了所有目标的 像素级分割掩码 与 边界框,并在语言层面加入计数、复合句等更具挑战性的结构。
为什么值得关注
- 任务更贴近真实场景:用户在实际交互中常会使用 “所有红色的杯子”“没有任何目标”等表达,gRefCOCO 正是为此设计的基准。
- 规模大、标注完整:超过 27 万条表达式,覆盖近 2 万张图像,提供了丰富的多目标组合,便于训练大模型。
- 兼容旧数据:部分单目标表达式直接继承自 RefCOCO,保证了与已有模型的兼容性,便于迁移学习。
- 公开可用:官方 GitHub 仓库提供下载脚本,研究者只需几行命令即可获取完整数据和基准代码,降低了复现门槛。
如需快速下载,可参考 GitHub 仓库的
README
中的说明,执行python download_grefcoco.py
(需先安装torch
、detectron2
等依赖),即可得到train/val/testA/testB
四个子集的图像、标注文件以及对应的语言表达文件。
以上即为 gRefCOCO 数据集的核心信息与获取渠道,供您在研究或项目中使用。祝实验顺利!
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!