Flickr30K 数据集概览
1. 背景与来源
Flickr30K 是由美国伊利诺伊大学等机构在 2015 年基于 Flickr 图片分享平台构建的图像‑文本配对数据集,旨在为图像描述(image captioning)和跨模态检索等视觉‑语言任务提供高质量的基准。数据集的图片全部来源于 Flickr,均为日常生活场景的真实照片。
2. 数据规模
- 图片数量:约 31 783 张(约 3.2 万)
- 文本标注:每张图片配有 5 条英文描述,共计 ≈158 915 条 描述句子
- 实体标注(Flickr30K Entities):在原始描述的基础上,进一步标注了约 427 K 个实体及 276 K 条手工框选的边界框,形成 244 K 条共指链。
3. 标注信息
标注类型 | 说明 |
---|---|
全局描述 | 5 条由众包工作者撰写的自然语言句子,覆盖场景、人物、动作等信息。 |
实体‑短语对应 | 在 Flickr30K Entities 扩展中,每个描述中的名词短语对应图像中的具体区域(bounding box),并提供共指链信息。 |
共指链 | 同一实体在不同句子中的指代关系,帮助研究跨句子视觉‑语言对齐。 |
4. 数据划分(常用的官方划分)
这种划分在多数图像‑文本检索、描述生成等基准实验中被沿用。
5. 扩展数据集 – Flickr30K Entities
Flickr30K Entities 是对原始 Flickr30K 的一次深度标注,提供了 区域‑短语对应、共指链 与 边界框 信息,使其成为视觉定位(visual grounding)和指代解析等任务的首选基准。该扩展在 2015 年的原始论文中首次公开,并在后续多模态模型(如 LLaVA‑Grounding、CogVLM 等)中被广泛使用。
6. 常见研究任务与基准
任务 | 说明 | 典型指标 |
---|---|---|
图像描述生成 | 训练模型从图像生成自然语言句子 | BLEU、METEOR、CIDEr、ROUGE |
跨模态检索(图文检索) | 依据文本检索对应图像或反向检索 | Recall@K(R@1、R@5、R@10) |
视觉定位 / Referring Expression Comprehension | 将文本短语定位到图像中的具体区域 | IoU、准确率 |
共指解析 | 解析描述中不同短语指向的同一实体 | 共指链准确率 |
在这些任务的公开评测中,Flickr30K 常被视为 中等规模 的基准,能够快速验证模型的跨模态对齐能力。例如,某视觉‑语言模型在 Flickr30K 检索任务上取得 R@5 ≈ 82 % 的成绩。
7. 下载与使用许可
- 获取方式:官方提供的压缩包(
flickr30k-images.tar
、flickr30k-captions.txt
)可通过项目 GitHub 页面或对应的镜像站点下载。 - 许可:图片本身遵循 Flickr 的使用条款,仅限 非商业研究 与 教育 用途;文本标注在论文中注明引用即可。
8. 研究影响与最新进展
自发布以来,Flickr30K 已成为视觉‑语言领域的 “标准基准”,被数千篇论文引用,用于评估从 CNN‑RNN 到 大规模跨模态 Transformer、多模态大语言模型(如 LLaVA、CogVLM)的性能。其扩展版 Flickr30K Entities 进一步推动了 视觉定位 与 指代解析 的研究,使模型能够在更细粒度上理解图像与语言的对应关系。
小结
Flickr30K 是一个规模约 3.2 万张图片、每张配 5 条英文描述的图像‑文本数据集,配套的 Entities 扩展提供了丰富的区域‑短语标注。它在图像描述、跨模态检索、视觉定位等任务中被广泛采用,成为视觉‑语言研究的核心基准之一。使用时请遵守 Flickr 的版权规定,并在学术工作中引用原始论文(Plummer et al., 2015)