1. 什么是 RefCOCO
RefCOCO(Referring Expressions in COCO)是专门用于指称表达理解(Referring Expression Comprehension,REC)和指称图像分割(Referring Expression Segmentation,RES)的视觉‑语言基准。它把自然语言中的指称短语与 MS‑COCO 图像中的具体目标对象对应起来,帮助研究者让模型学会“根据一句话在图像中定位目标”。
2. 数据来源与收集方式
- 基于 MS‑COCO 的图像子集。
- 通过 ReferItGame(两人协作的游戏)收集语言描述:一名玩家看到图像并为目标对象写出简洁指称表达,另一名玩家根据描述点击对应目标。
- 与 RefCOCO+、RefCOCOg 一同构成 RefCOCO 系列,均来源于 COCO 并提供目标的 bbox 标注。
3. 数据规模与统计
项目 | 数量 |
---|---|
图像 | 19,994 张 |
目标对象 | 约 50,000 个 |
指称表达(句子) | 142,210 条 |
平均句长 | 约 3.6 个词 |
4. 数据划分(官方 UNC 划分)
5. 主要任务与使用场景
- 指称表达理解(REC):给定图像 + 句子,输出目标的边界框。
- 指称图像分割(RES):在 REC 基础上进一步输出像素级分割掩码。
- 常用于评估 视觉定位、跨模态对齐、语言驱动的目标检测 等前沿模型。
6. 获取方式与资源链接
- 原始论文(Modeling Context in Referring Expressions, 2016)提供了数据集的正式描述与基准结果。
- arXiv 链接:https://arxiv.org/abs/1605.07471 (对应【15】)
- 数据下载:官方 GitHub 仓库提供全部图像、bbox 注释以及语言文件。
- https://github.com/lichengunc/refer (【21、22】)
- COCO 主站(用于获取原始图像):https://cocodataset.org (【6】)
- 数据结构示例(instances.json + refs(pickle))可参考文档说明。
7. 使用注意事项
- 划分一致性:在实验中务必使用官方提供的 UNC 划分,以避免训练/测试泄漏。
- 语言特性:RefCOCO 包含位置词(如 left、right),而 RefCOCO+ 则去除这些词,仅保留外观描述;若关注纯视觉特征,可优先使用 RefCOCO+。
- 评价指标:常用 IoU@0.5、Acc@0.5 等指标,具体实现可参考公开代码库(如 mmdetection、detectron2)。
小结:RefCOCO 是目前最广泛使用的指称表达基准之一,凭借大规模、细粒度的语言‑视觉配对,为视觉语言理解、跨模态检索以及人机交互等研究提供了可靠的实验平台。通过上述链接即可获取完整数据并快速开始实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!