什么是CC3M数据集

AI解读 2个月前 硕雀
66 0

CC3MConceptual Captions 3 Million数据集概览


1. 背景与来源

  • 全称:Conceptual Captions 3 Million(简称 CC3M)。
  • 创建机构:Google AI(Google Research)于 2018 年发布,旨在提供大规模、自然语言描述的图像‑文本对,用于视觉‑语言预训练与生成任务。
  • 数据来源:从互联网上公开的网页图片的 alt‑text(图片说明)中自动抓取,随后经过多轮过滤(去除噪声、去除敏感内容、统一超类等),得到相对干净的配对数据。

2. 数据规模与结构

划分 样本数量 说明
训练集 3,318,333 条 包含约 3.3 M 对图像‑文本
验证集 15,840 条 用于模型调参
隐藏测试集 12,559 条(未公开) 仅用于官方评测
平均 Caption 长度 约 10.3 tokens(≈9 词) 词汇量约 51 k,词频分布均衡

每条记录的基本格式为:

<image_url>\t<caption>

其中 caption 为从网页 alt‑text 提取并经超类化处理后的自然语言描述。


3. 内容与质量特点

  • 多样性:图片来源覆盖新闻、社交、商品、自然风光等多个领域,语言风格更贴近真实网页描述,较传统 COCO 等人工标注数据更具广度。
  • 质量控制:采用了 URL 可访问性检查、语言清洗(去除 HTML 噪声、统一超类词)以及过滤低质量或重复的文本,整体噪声率相对较低,但仍存在约 15% 的 URL 已失效的情况,需要自行处理。
  • 语言:原始数据为英文;社区常通过机器翻译得到中文版本,以支持中文视觉‑语言研究。

4. 下载与获取方式

方式 链接 说明
官方页面 https://ai.google.com/research/ConceptualCaptions/ 提供数据集简介、下载 TSV 文件(约 500 MB)以及使用指南
GitHub 镜像 https://github.com/google-research-datasets/conceptual-captions 包含数据集结构说明、下载脚本以及示例代码
TensorFlow Datasets (TFDS) https://tensorflow.google.cn/datasets/

community_catalog/huggingface/conceptual_captions

通过 tfds.load('huggingface:conceptual_captions/unlabeled') 直接加载,适合 TensorFlow / JAX 环境
HuggingFace 数据集 https://huggingface.co/datasets/conceptual_captions 提供 datasets.load_dataset('conceptual_captions') 接口,支持 PyTorchNumPy 等多种框架
第三方一键下载脚本 https://github.com/DownloadConceptualCaptions

/DownloadConceptualCaptions

基于 Python 实现断点续传、错误重试,适合大规模离线下载

下载提示

  • 数据集仅提供图片 URL,实际图片需自行下载或使用 img2dataset 等工具批量抓取。
  • 由于部分 URL 已失效,建议在下载后进行可用性过滤(如使用 requests.head 检查状态码)并记录失效比例。

5. 常见研究与应用场景

任务 典型使用方式
图像描述生成(Image Captioning) 直接作为大规模预训练语料,提升模型对多样化场景的描述能力
跨模态检索(Image‑Text Retrieval) 训练 CLIP、ALIGN、FLIP 等对比学习模型,实现零样本检索
视觉‑语言预训练(Vision‑Language Pre‑training) 与 COCO、VG、SBU 等数据共同使用,构建通用视觉语言表示
多模态微调(Multimodal Fine‑tuning) 在下游任务(VQA视觉问答、视觉指令微调)中作为基础数据源
数据分析与过滤研究 通过词频、概念覆盖等统计方法,对噪声进行二次过滤,生成子集(如 595 K、300 K)用于特定实验

6. 使用注意事项

  1. 版权与协议:CC3M 采用 CC‑BY 4.0(需注明来源 Google AI),商业使用需遵守相应许可条款。
  2. 数据完整性:约 15% 的图片 URL 已失效,建议在实验报告中说明失效比例及处理方式。
  3. 语言一致性:若在中文项目中使用,需要自行进行机器翻译或人工校对,确保概念一致性。
  4. 存储与带宽:完整下载约 300 GB(图片原始文件),建议使用高速网络或分布式下载工具。

7. 小结

CC3M 是目前最具规模且质量相对可靠的公开图像‑文本对数据集之一,提供了 300 万 以上的多样化配对,广泛用于视觉‑语言预训练、跨模态检索以及图像描述生成等前沿研究。通过官方页面、GitHub、TFDS 或 HuggingFace 等渠道均可获取,使用时注意 URL 可用性、版权声明以及语言处理。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!