什么是Flickr30K数据集

AI解读 2个月前硕雀

61 0 0

1. 背景与来源

Flickr30K 是由美国伊利诺伊大学等机构在 2015 年基于 Flickr 图片分享平台构建的图像‑文本配对数据集，旨在为图像描述（image captioning）和跨模态检索等视觉‑语言任务提供高质量的基准。数据集的图片全部来源于 Flickr，均为日常生活场景的真实照片。

2. 数据规模

图片数量：约 31 783 张（约 3.2 万）
文本标注：每张图片配有 5 条英文描述，共计 ≈158 915 条 描述句子
实体标注（Flickr30K Entities）‍：在原始描述的基础上，进一步标注了约 427 K 个实体及 276 K 条手工框选的边界框，形成 244 K 条共指链。

3. 标注信息

标注类型	说明
全局描述	5 条由众包工作者撰写的自然语言句子，覆盖场景、人物、动作等信息。
实体‑短语对应	在 Flickr30K Entities 扩展中，每个描述中的名词短语对应图像中的具体区域（bounding box），并提供共指链信息。
共指链	同一实体在不同句子中的指代关系，帮助研究跨句子视觉‑语言对齐。

4. 数据划分（常用的官方划分）

训练集：约 29 000 张图片（其余大部分）
验证集：1 000 张图片
测试集：1 000 张图片

这种划分在多数图像‑文本检索、描述生成等基准实验中被沿用。

5. 扩展数据集 – Flickr30K Entities

Flickr30K Entities 是对原始 Flickr30K 的一次深度标注，提供了 区域‑短语对应、共指链 与 边界框 信息，使其成为视觉定位（visual grounding）和指代解析等任务的首选基准。该扩展在 2015 年的原始论文中首次公开，并在后续多模态模型（如 LLaVA‑Grounding、CogVLM 等）中被广泛使用。

6. 常见研究任务与基准

任务	说明	典型指标
图像描述生成	训练模型从图像生成自然语言句子	BLEU、METEOR、CIDEr、ROUGE
跨模态检索（图文检索）	依据文本检索对应图像或反向检索	Recall@K（R@1、R@5、R@10）
视觉定位 / Referring Expression Comprehension	将文本短语定位到图像中的具体区域	IoU、准确率
共指解析	解析描述中不同短语指向的同一实体	共指链准确率

在这些任务的公开评测中，Flickr30K 常被视为 中等规模 的基准，能够快速验证模型的跨模态对齐能力。例如，某视觉‑语言模型在 Flickr30K 检索任务上取得 R@5 ≈ 82 % 的成绩。

7. 下载与使用许可

获取方式：官方提供的压缩包（flickr30k-images.tar、flickr30k-captions.txt）可通过项目 GitHub 页面或对应的镜像站点下载。
许可：图片本身遵循 Flickr 的使用条款，仅限 非商业研究 与教育用途；文本标注在论文中注明引用即可。

8. 研究影响与最新进展

自发布以来，Flickr30K 已成为视觉‑语言领域的 “标准基准”，被数千篇论文引用，用于评估从 CNN‑RNN 到 大规模跨模态 Transformer、多模态大语言模型（如 LLaVA、CogVLM）的性能。其扩展版 Flickr30K Entities 进一步推动了 视觉定位 与 指代解析 的研究，使模型能够在更细粒度上理解图像与语言的对应关系。

小结
Flickr30K 是一个规模约 3.2 万张图片、每张配 5 条英文描述的图像‑文本数据集，配套的 Entities 扩展提供了丰富的区域‑短语标注。它在图像描述、跨模态检索、视觉定位等任务中被广泛采用，成为视觉‑语言研究的核心基准之一。使用时请遵守 Flickr 的版权规定，并在学术工作中引用原始论文（Plummer et al., 2015）

Flickr30K数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是Flickr30K数据集

1. 背景与来源

2. 数据规模

3. 标注信息

4. 数据划分（常用的官方划分）

5. 扩展数据集 – Flickr30K Entities

6. 常见研究任务与基准

7. 下载与使用许可

8. 研究影响与最新进展

什么是SNLI（Stanford Natural Language Inference）数据集

什么是视觉定位（Visual Grounding）

什么是Flickr30K数据集

1. 背景与来源

2. 数据规模

3. 标注信息

4. 数据划分（常用的官方划分）

5. 扩展数据集 – Flickr30K Entities

6. 常见研究任务与基准

7. 下载与使用许可

8. 研究影响与最新进展

什么是SNLI（Stanford Natural Language Inference）数据集

什么是视觉定位（Visual Grounding）

5. 扩展数据集 – Flickr30K Entities