Flickr30K Entities 是在经典的 Flickr30K 图像‑字幕数据集基础上扩展而来的多模态标注资源,旨在为 视觉语言对齐(visual grounding / phrase localization)、指称表达理解(referring expression comprehension) 等任务提供更细粒度的“短语‑区域”对应关系。
1. 数据来源与规模
项目 | 说明 |
---|---|
图像数量 | 31 783 张真实世界照片,均来源于 Flickr 平台 |
字幕数量 | 每张图像配有 5 条众包英文描述,共计 158 915 条字幕 |
短语‑区域对应 | 约 244 000 条核心共指链(coreference chains),对应 276 000+ 手工标注的边界框(bounding boxes) |
实体总数 | 超过 427 000 个实体(短语) |
类别划分 | 短语被细分为 people、clothing、body parts、animals、vehicles、instruments、scene、other 等 8 大类 |
2. 标注内容
- 短语标注:对每条字幕中的所有名词短语(noun phrase)进行标记,并通过共指链将同一实体在不同描述中的出现关联起来。
- 边界框:为每个被标记的短语在图像上绘制手工标注的矩形框,提供精确的空间位置信息。
- 共指链:同一实体在多条描述中的不同指代被聚合为一条链,形成跨句子的语义关联。
这些标注使得数据集能够支持 “短语 → 图像区域” 的直接映射,进而推动更细粒度的跨模态理解研究。
3. 主要任务与应用
任务 | 说明 |
---|---|
Phrase Localization / Visual Grounding | 给定图像和描述中的短语,定位对应的图像区域。数据集提供了标准的评测划分(train/val/test),常用于评估模型的定位准确率 |
Referring Expression Comprehension (REC) | 通过自然语言指称表达定位目标对象,是视觉语言交互的重要子任务。Flickr30K Entities 与 RefCOCO、RefCOCO+、RefCOCOg 等数据一起构成常用基准 |
跨模态检索 & 图像字幕生成 | 利用短语‑区域对应提升检索和生成模型对实体的定位能力,已在多模态大模型(如 LLaVA‑Grounding、DAM)中作为训练或评估数据使用 |
多对象布局学习 | 由于每张图像包含多个标注短语,数据集可用于学习图像中对象的空间关系与共现模式 |
4. 数据获取与使用规范
- 下载方式:官方提供 GitHub 项目页面(<https://github.com/BryanPlummer/flickr30k_entities >)以及原始 Flickr30K 数据集的链接,用户需先获取 Flickr30K 图像后再下载对应的标注文件(txt/xml)。
- 许可:图像本身受 Flickr 使用条款约束,仅可在 非商业、科研或教育 场景下使用;标注文件在 CC‑BY‑4.0(或类似)许可下公开,需注明原始论文引用。
- 引用格式(建议):
Plummer B. A., Wang L., Cervantes C. M., Caicedo J. C., Hockenmaier J., Lazebnik S. (2015). Flickr30K Entities: Collecting Region‑to‑Phrase Correspondences for Richer Image‑to‑Sentence Models.
5. 研究价值与影响
- 细粒度对齐:相比仅提供全局图像‑句子配对的 Flickr30K,Flickr30K Entities 为每个名词短语提供空间定位,使模型能够学习 语言指代 ↔ 视觉实体 的对应关系。
- 推动多模态预训练:近年来的视觉语言大模型(如 CLIP、BLIP、LLaVA)在预训练阶段常加入该数据集,以提升 grounded captioning 与 跨模态检索 的表现。
- 基准统一:已成为视觉语言社区的标准基准之一,几乎所有最新的视觉 grounding、指称表达、跨模态检索论文都会在该数据集上报告结果。
6. 小结
Flickr30K Entities 是一个 规模约 3.2 万张图像、5 条字幕/图、约 27 万标注框 的高质量多模态数据集,提供 短语‑区域对应 与 共指链 两大核心标注,支撑 视觉语言对齐、指称表达理解、跨模态检索 等前沿任务。其公开可获取、科研友好的许可以及丰富的标注细节,使其在学术界和工业界的多模态模型研发中扮演重要角色。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!