什么是RefCOCO数据集

AI解读 4小时前 硕雀
4 0

RefCOCO 数据集概览

1. 什么是 RefCOCO
RefCOCO(Referring Expressions in COCO)是专门用于指称表达理解(Referring Expression Comprehension,REC)‍和指称图像分割Referring Expression Segmentation,RES)‍的视觉‑语言基准。它把自然语言中的指称短语与 MS‑COCO 图像中的具体目标对象对应起来,帮助研究者让模型学会“根据一句话在图像中定位目标”。

2. 数据来源与收集方式

  • 基于 MS‑COCO 的图像子集。
  • 通过 ReferItGame(两人协作的游戏)收集语言描述:一名玩家看到图像并为目标对象写出简洁指称表达,另一名玩家根据描述点击对应目标。
  • 与 RefCOCO+、RefCOCOg 一同构成 RefCOCO 系列,均来源于 COCO 并提供目标的 bbox 标注。

3. 数据规模与统计

项目 数量
图像 19,994 张
目标对象 约 50,000 个
指称表达(句子) 142,210 条
平均句长 约 3.6 个词

4. 数据划分(官方 UNC 划分)

  • 训练集:120,624 条表达
  • 验证集:10,834 条表达
  • Test‑A:5,657 条表达(多人物场景)
  • Test‑B:5,095 条表达(其他类别)

5. 主要任务与使用场景

  • 指称表达理解(REC)‍:给定图像 + 句子,输出目标的边界框。
  • 指称图像分割(RES)‍:在 REC 基础上进一步输出像素级分割掩码
  • 常用于评估 视觉定位、跨模态对齐、语言驱动的目标检测 等前沿模型。

6. 获取方式与资源链接

7. 使用注意事项

  • 划分一致性:在实验中务必使用官方提供的 UNC 划分,以避免训练/测试泄漏。
  • 语言特性:RefCOCO 包含位置词(如 left、right),而 RefCOCO+ 则去除这些词,仅保留外观描述;若关注纯视觉特征,可优先使用 RefCOCO+。
  • 评价指标:常用 IoU@0.5Acc@0.5 等指标,具体实现可参考公开代码库(如 mmdetection、detectron2)。

小结:RefCOCO 是目前最广泛使用的指称表达基准之一,凭借大规模、细粒度的语言‑视觉配对,为视觉语言理解、跨模态检索以及人机交互等研究提供了可靠的实验平台。通过上述链接即可获取完整数据并快速开始实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!