什么是LAION‑2B‑en数据集

AI解读 3小时前 硕雀
3 0

LAION‑2B‑en 数据集概览

项目 说明
全称 LAION‑2B‑en(Large‑Scale Artificial Intelligence Open Network – 2 Billion English)
所属系列 LAION‑5B 的英文子集,专门保留了英文文本的图像‑文本对
规模 大约 23.2 亿(2.32 B)对图像‑文本配对,约占 LAION‑5B 总量的 40%
数据来源 通过 Common Crawl 抓取的公开网页,提取图像 URL 与对应的 alt‑text/标题等文本信息
过滤标准 使用公开的 CLIP 模型计算图像‑文本余弦相似度,阈值约 0.3,保留相似度较高的配对;同时记录图像宽高、相似度分数等元数据
存储形式 仅保存 URL、文本、宽高、相似度等元数据(Parquet 文件),原始图像不随数据集一起分发,需自行下载
文件体积 元数据约 800 GB(Parquet),对应的嵌入向量(如 CLIP‑L/14)约 6.2 TB(可选下载)
许可协议 元数据采用 CC‑BY 4.0(需注明来源),图像本身遵循原始网页的版权约束
常用子集 laion2B‑en‑aesthetic:在原始数据上进一步筛选出审美评分 ≥ 7 的样本
laion‑coco:基于 laion2B‑en 生成的 6 亿条合成描述数据集,已在 Hugging Face 上公开
下载渠道 1. 官方博客页面(提供数据概览、下载说明)
https://laion.ai/blog/laion-5b/
2. Hugging Face 数据库(直接通过 datasets 接口下载元数据或在网页上批量下载)
https://huggingface.co/datasets/laion/laion2B-en
3. GitHub 镜像 / 索引(提供 Parquet 文件列表、嵌入向量下载)
https://github.com/LAION-AI/laion-datasets (含 6.2 TB 的 CLIP‑L/14 嵌入)
使用场景 - 训练 文本‑图像对齐模型(如 CLIP、OpenCLIP)
- 作为 Stable DiffusionGLIDEMidjourney 等大规模生成模型的预训练数据
- 进行 跨模态检索、零样本分类、数据清洗与子集构建 等研究工作
获取示例代码 在 Python 中使用 datasets 库快速加载:
python<br>from datasets import load_dataset<br>ds = load_dataset("laion/laion2B-en", split="train")<br>
(代码仅作示例,实际下载会在后台拉取 Parquet 文件)

关键链接汇总

使用提示:由于数据仅提供 URL,实际下载图像时需自行检查链接有效性并遵守原始图片的版权要求。若用于商业项目,请确保对每张图片的使用权进行二次确认。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!