什么是RefCOCO数据集

AI解读 2个月前硕雀

82 0 0

1. 什么是 RefCOCO
RefCOCO（Referring Expressions in COCO）是专门用于指称表达理解（Referring Expression Comprehension，REC）‍和指称图像分割（Referring Expression Segmentation，RES）‍的视觉‑语言基准。它把自然语言中的指称短语与 MS‑COCO 图像中的具体目标对象对应起来，帮助研究者让模型学会“根据一句话在图像中定位目标”。

2. 数据来源与收集方式

基于 MS‑COCO 的图像子集。
通过 ReferItGame（两人协作的游戏）收集语言描述：一名玩家看到图像并为目标对象写出简洁指称表达，另一名玩家根据描述点击对应目标。
与 RefCOCO+、RefCOCOg 一同构成 RefCOCO 系列，均来源于 COCO 并提供目标的 bbox 标注。

3. 数据规模与统计

项目	数量
图像	19,994 张
目标对象	约 50,000 个
指称表达（句子）	142,210 条
平均句长	约 3.6 个词

4. 数据划分（官方 UNC 划分）

训练集：120,624 条表达
验证集：10,834 条表达
Test‑A：5,657 条表达（多人物场景）
Test‑B：5,095 条表达（其他类别）

5. 主要任务与使用场景

指称表达理解（REC）‍：给定图像 + 句子，输出目标的边界框。
指称图像分割（RES）‍：在 REC 基础上进一步输出像素级分割掩码。
常用于评估 视觉定位、跨模态对齐、语言驱动的目标检测 等前沿模型。

6. 获取方式与资源链接

原始论文（Modeling Context in Referring Expressions, 2016）提供了数据集的正式描述与基准结果。
- arXiv 链接：https://arxiv.org/abs/1605.07471 （对应【15】）
数据下载：官方 GitHub 仓库提供全部图像、bbox 注释以及语言文件。
- https://github.com/lichengunc/refer （【21、22】）
COCO 主站（用于获取原始图像）：https://cocodataset.org （【6】）
数据结构示例（instances.json + refs(pickle)）可参考文档说明。

7. 使用注意事项

划分一致性：在实验中务必使用官方提供的 UNC 划分，以避免训练/测试泄漏。
语言特性：RefCOCO 包含位置词（如 left、right），而 RefCOCO+ 则去除这些词，仅保留外观描述；若关注纯视觉特征，可优先使用 RefCOCO+。
评价指标：常用 IoU@0.5、Acc@0.5 等指标，具体实现可参考公开代码库（如 mmdetection、detectron2）。

小结：RefCOCO 是目前最广泛使用的指称表达基准之一，凭借大规模、细粒度的语言‑视觉配对，为视觉语言理解、跨模态检索以及人机交互等研究提供了可靠的实验平台。通过上述链接即可获取完整数据并快速开始实验。

RefCOCO RefCOCO数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是RefCOCO数据集

什么是Konva.js

什么是gRefCOCO数据集