什么是Flickr30K数据集

Flickr30K 数据集概览


1. 背景与来源

Flickr30K 是由美国伊利诺伊大学等机构在 2015 年基于 Flickr 图片分享平台构建的图像‑文本配对数据集,旨在为图像描述(image captioning)和跨模态检索等视觉‑语言任务提供高质量的基准。数据集的图片全部来源于 Flickr,均为日常生活场景的真实照片。

2. 数据规模

  • 图片数量:约 31 783 张(约 3.2 万)
  • 文本标注:每张图片配有 5 条英文描述,共计 ≈158 915 条 描述句子
  • 实体标注(Flickr30K Entities‍:在原始描述的基础上,进一步标注了约 427 K 个实体及 276 K 条手工框选的边界框,形成 244 K 条共指链

3. 标注信息

标注类型 说明
全局描述 5 条由众包工作者撰写的自然语言句子,覆盖场景、人物、动作等信息。
实体‑短语对应 在 Flickr30K Entities 扩展中,每个描述中的名词短语对应图像中的具体区域(bounding box),并提供共指链信息。
共指链 同一实体在不同句子中的指代关系,帮助研究跨句子视觉‑语言对齐。

4. 数据划分(常用的官方划分)

这种划分在多数图像‑文本检索、描述生成等基准实验中被沿用。

5. 扩展数据集 – Flickr30K Entities

Flickr30K Entities 是对原始 Flickr30K 的一次深度标注,提供了 区域‑短语对应共指链 与 边界框 信息,使其成为视觉定位(visual grounding)和指代解析等任务的首选基准。该扩展在 2015 年的原始论文中首次公开,并在后续多模态模型(如 LLaVA‑Grounding、CogVLM 等)中被广泛使用。

6. 常见研究任务与基准

任务 说明 典型指标
图像描述生成 训练模型从图像生成自然语言句子 BLEUMETEORCIDErROUGE
跨模态检索(图文检索) 依据文本检索对应图像或反向检索 Recall@K(R@1、R@5、R@10)
视觉定位 / Referring Expression Comprehension 将文本短语定位到图像中的具体区域 IoU准确率
共指解析 解析描述中不同短语指向的同一实体 共指链准确率

在这些任务的公开评测中,Flickr30K 常被视为 中等规模 的基准,能够快速验证模型的跨模态对齐能力。例如,某视觉‑语言模型在 Flickr30K 检索任务上取得 R@5 ≈ 82 % 的成绩。

7. 下载与使用许可

  • 获取方式:官方提供的压缩包(flickr30k-images.tarflickr30k-captions.txt)可通过项目 GitHub 页面或对应的镜像站点下载。
  • 许可:图片本身遵循 Flickr 的使用条款,仅限 非商业研究 与 教育 用途;文本标注在论文中注明引用即可。

8. 研究影响与最新进展

自发布以来,Flickr30K 已成为视觉‑语言领域的 “标准基准”,被数千篇论文引用,用于评估从 CNNRNN 到 大规模跨模态 Transformer多模态大语言模型(如 LLaVA、CogVLM)的性能。其扩展版 Flickr30K Entities 进一步推动了 视觉定位 与 指代解析 的研究,使模型能够在更细粒度上理解图像与语言的对应关系。


小结
Flickr30K 是一个规模约 3.2 万张图片、每张配 5 条英文描述的图像‑文本数据集,配套的 Entities 扩展提供了丰富的区域‑短语标注。它在图像描述、跨模态检索、视觉定位等任务中被广泛采用,成为视觉‑语言研究的核心基准之一。使用时请遵守 Flickr 的版权规定,并在学术工作中引用原始论文(Plummer et al., 2015)

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!