什么是gRefCOCO数据集

AI解读 5个月前硕雀

87 0 0

项目	内容	参考
全称	Generalized Referring Expression COCO（广义引用表达式分割数据集）
任务定位	用于 Generalized Referring Expression Segmentation (GRES)，即让表达式可以指代任意数量的目标（单目标、多目标、无目标）
数据来源	基于 MS‑COCO 图像，采用在线标注平台从 COCO 中抽取图像并编写/验证自然语言表达式
规模	• 278 232 条表达式 • 80 022 条多目标表达式 • 32 202 条无目标表达式 • 覆盖 19 994 张图像、60 287 个不同实例
标注类型	每个目标提供分割掩码（mask）‍ 与边界框（bbox）‍；无目标表达式仅标记为 “no‑target”
数据划分	与 RefCOCO 相同的 UNC 划分，四个不重叠子集：train、val、testA、testB。train 为 RefCOCO 的超集，val / testA / testB 与 RefCOCO 完全一致，避免泄漏
关键难点	1. 计数表达式（区分基数词与序数词） 2. 复合句结构（如 “A and B”、 “A except B”、 “A with B or C”） 3. 多目标之间的属性、关系推理
与其他数据集对比	- RefCOCO / RefCOCO+ 只含单目标表达式 - G‑Ref（RefCOCOg）虽更长但仍单目标 - gRefCOCO 首次系统加入多目标与无目标样本，显著提升任务的现实适用性
主要应用	- 广义引用表达分割（GRES）‍ 研究 - 多目标视觉语言理解 - 无目标（negative）查询的鲁棒性评估 - 作为基准推动 Vision‑Language 模型在更复杂语言指令下的表现
获取方式	1. GitHub 项目（代码、数据下载脚本、说明） https://github.com/henghuiding/gRefCOCO 2. 论文 PDF（CVPR 2023 Highlight） https://openreview.net/pdf?id=wHLDHRkmEu （可在 CVPR 2023 论文页面获取） 3. NTU 论文/学位论文（完整数据统计与划分细节） https://dr.ntu.edu.sg/bitstream/10356/175477/2/Thesis_Liu%20Chang_submit_compress.pdf

简要说明

gRefCOCO 是新加坡南洋理工大学（NTU）在 2023 年 CVPR 上提出的 广义引用表达分割（GRES）‍ 数据集。它在传统 RefCOCO 系列的基础上，扩展了表达式的指代范围：不仅可以指向单个对象，还可以一次性指向 多个对象，甚至可以给出 不对应任何对象的表达式（no‑target）。为此，数据集在标注上提供了所有目标的 像素级分割掩码 与 边界框，并在语言层面加入计数、复合句等更具挑战性的结构。

为什么值得关注

任务更贴近真实场景：用户在实际交互中常会使用 “所有红色的杯子”“没有任何目标”等表达，gRefCOCO 正是为此设计的基准。
规模大、标注完整：超过 27 万条表达式，覆盖近 2 万张图像，提供了丰富的多目标组合，便于训练大模型。
兼容旧数据：部分单目标表达式直接继承自 RefCOCO，保证了与已有模型的兼容性，便于迁移学习。
公开可用：官方 GitHub 仓库提供下载脚本，研究者只需几行命令即可获取完整数据和基准代码，降低了复现门槛。

如需快速下载，可参考 GitHub 仓库的 README 中的说明，执行 python download_grefcoco.py（需先安装 torch、detectron2 等依赖），即可得到 train/val/testA/testB 四个子集的图像、标注文件以及对应的语言表达文件。

以上即为 gRefCOCO 数据集的核心信息与获取渠道，供您在研究或项目中使用。祝实验顺利！

gRefCOCO gRefCOCO数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是gRefCOCO数据集

简要说明

为什么值得关注

什么是RefCOCO数据集

什么是广义引用表达分割（GRES）