什么是Flickr30K Entities数据集

AI解读 3天前硕雀

19 0 0

Flickr30K Entities 是在经典的 Flickr30K 图像‑字幕数据集基础上扩展而来的多模态标注资源，旨在为 视觉语言对齐（visual grounding / phrase localization）‍、指称表达理解（referring expression comprehension）‍ 等任务提供更细粒度的“短语‑区域”对应关系。

1. 数据来源与规模

项目	说明
图像数量	31 783 张真实世界照片，均来源于 Flickr 平台
字幕数量	每张图像配有 5 条众包英文描述，共计 158 915 条字幕
短语‑区域对应	约 244 000 条核心共指链（coreference chains），对应 276 000+ 手工标注的边界框（bounding boxes）
实体总数	超过 427 000 个实体（短语）
类别划分	短语被细分为 people、clothing、body parts、animals、vehicles、instruments、scene、other 等 8 大类

2. 标注内容

短语标注：对每条字幕中的所有名词短语（noun phrase）进行标记，并通过共指链将同一实体在不同描述中的出现关联起来。
边界框：为每个被标记的短语在图像上绘制手工标注的矩形框，提供精确的空间位置信息。
共指链：同一实体在多条描述中的不同指代被聚合为一条链，形成跨句子的语义关联。

这些标注使得数据集能够支持 “短语 → 图像区域” 的直接映射，进而推动更细粒度的跨模态理解研究。

3. 主要任务与应用

任务	说明
Phrase Localization / Visual Grounding	给定图像和描述中的短语，定位对应的图像区域。数据集提供了标准的评测划分（train/val/test），常用于评估模型的定位准确率
Referring Expression Comprehension (REC)	通过自然语言指称表达定位目标对象，是视觉语言交互的重要子任务。Flickr30K Entities 与 RefCOCO、RefCOCO+、RefCOCOg 等数据一起构成常用基准
跨模态检索 & 图像字幕生成	利用短语‑区域对应提升检索和生成模型对实体的定位能力，已在多模态大模型（如 LLaVA‑Grounding、DAM）中作为训练或评估数据使用
多对象布局学习	由于每张图像包含多个标注短语，数据集可用于学习图像中对象的空间关系与共现模式

4. 数据获取与使用规范

下载方式：官方提供 GitHub 项目页面（<https://github.com/BryanPlummer/flickr30k_entities >）以及原始 Flickr30K 数据集的链接，用户需先获取 Flickr30K 图像后再下载对应的标注文件（txt/xml）。
许可：图像本身受 Flickr 使用条款约束，仅可在 非商业、科研或教育 场景下使用；标注文件在 CC‑BY‑4.0（或类似）许可下公开，需注明原始论文引用。
引用格式（建议）：

Plummer B. A., Wang L., Cervantes C. M., Caicedo J. C., Hockenmaier J., Lazebnik S. (2015). Flickr30K Entities: Collecting Region‑to‑Phrase Correspondences for Richer Image‑to‑Sentence Models.

5. 研究价值与影响

细粒度对齐：相比仅提供全局图像‑句子配对的 Flickr30K，Flickr30K Entities 为每个名词短语提供空间定位，使模型能够学习 语言指代 ↔ 视觉实体 的对应关系。
推动多模态预训练：近年来的视觉语言大模型（如 CLIP、BLIP、LLaVA）在预训练阶段常加入该数据集，以提升 grounded captioning 与 跨模态检索 的表现。
基准统一：已成为视觉语言社区的标准基准之一，几乎所有最新的视觉 grounding、指称表达、跨模态检索论文都会在该数据集上报告结果。

6. 小结

Flickr30K Entities 是一个 规模约 3.2 万张图像、5 条字幕/图、约 27 万标注框 的高质量多模态数据集，提供 短语‑区域对应 与 共指链 两大核心标注，支撑 视觉语言对齐、指称表达理解、跨模态检索 等前沿任务。其公开可获取、科研友好的许可以及丰富的标注细节，使其在学术界和工业界的多模态模型研发中扮演重要角色。

Flickr30K Entities Flickr30K Entities数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是Flickr30K Entities数据集

1. 数据来源与规模

2. 标注内容

3. 主要任务与应用

4. 数据获取与使用规范

5. 研究价值与影响

6. 小结

什么是Chinese‑CR数据集

什么是学习排序（Learning‑to‑Rank，LTR）

什么是Flickr30K Entities数据集

1. 数据来源与规模

2. 标注内容

3. 主要任务与应用

4. 数据获取与使用规范

5. 研究价值与影响

6. 小结

什么是Chinese‑CR数据集

什么是学习排序（Learning‑to‑Rank，LTR）

什么是Flickr30K Entities数据集