什么是LAION‑2B‑en数据集

AI解读 4个月前硕雀

33 0 0

LAION‑2B‑en 数据集概览

项目	说明
全称	LAION‑2B‑en（Large‑Scale Artificial Intelligence Open Network – 2 Billion English）
所属系列	LAION‑5B 的英文子集，专门保留了英文文本的图像‑文本对
规模	大约 23.2 亿（2.32 B）对图像‑文本配对，约占 LAION‑5B 总量的 40%
数据来源	通过 Common Crawl 抓取的公开网页，提取图像 URL 与对应的 alt‑text/标题等文本信息
过滤标准	使用公开的 CLIP 模型计算图像‑文本余弦相似度，阈值约 0.3，保留相似度较高的配对；同时记录图像宽高、相似度分数等元数据
存储形式	仅保存 URL、文本、宽高、相似度等元数据（Parquet 文件），原始图像不随数据集一起分发，需自行下载
文件体积	元数据约 800 GB（Parquet），对应的嵌入向量（如 CLIP‑L/14）约 6.2 TB（可选下载）
许可协议	元数据采用 CC‑BY 4.0（需注明来源），图像本身遵循原始网页的版权约束
常用子集	- laion2B‑en‑aesthetic：在原始数据上进一步筛选出审美评分 ≥ 7 的样本 - laion‑coco：基于 laion2B‑en 生成的 6 亿条合成描述数据集，已在 Hugging Face 上公开
下载渠道	1. 官方博客页面（提供数据概览、下载说明） https://laion.ai/blog/laion-5b/ 2. Hugging Face 数据库（直接通过 `datasets` 接口下载元数据或在网页上批量下载） https://huggingface.co/datasets/laion/laion2B-en 3. GitHub 镜像 / 索引（提供 Parquet 文件列表、嵌入向量下载） https://github.com/LAION-AI/laion-datasets （含 6.2 TB 的 CLIP‑L/14 嵌入）
使用场景	- 训练文本‑图像对齐模型（如 CLIP、OpenCLIP） - 作为 Stable Diffusion、GLIDE、Midjourney 等大规模生成模型的预训练数据 - 进行跨模态检索、零样本分类、数据清洗与子集构建等研究工作
获取示例代码	在 Python 中使用 `datasets` 库快速加载： `python<br>from datasets import load_dataset<br>ds = load_dataset("laion/laion2B-en", split="train")<br>`
（代码仅作示例，实际下载会在后台拉取 Parquet 文件）

关键链接汇总

官方博客（数据集介绍、下载入口）
https://laion.ai/blog/laion-5b/
Hugging Face 数据集页面（元数据、子集）
https://huggingface.co/datasets/laion/laion2B-en
GitHub 代码库（Parquet 文件列表、嵌入向量）
https://github.com/LAION-AI/laion-datasets
LAION‑COCO（基于 laion2B‑en 的 6 亿合成描述子集）
https://huggingface.co/datasets/laion/laion-coco

使用提示：由于数据仅提供 URL，实际下载图像时需自行检查链接有效性并遵守原始图片的版权要求。若用于商业项目，请确保对每张图片的使用权进行二次确认。

LAION‑2B‑en LAION‑2B‑en数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！