| 项目 | 说明 |
|---|---|
| 全称 | LAION‑2B‑en(Large‑Scale Artificial Intelligence Open Network – 2 Billion English) |
| 所属系列 | LAION‑5B 的英文子集,专门保留了英文文本的图像‑文本对 |
| 规模 | 大约 23.2 亿(2.32 B)对图像‑文本配对,约占 LAION‑5B 总量的 40% |
| 数据来源 | 通过 Common Crawl 抓取的公开网页,提取图像 URL 与对应的 alt‑text/标题等文本信息 |
| 过滤标准 | 使用公开的 CLIP 模型计算图像‑文本余弦相似度,阈值约 0.3,保留相似度较高的配对;同时记录图像宽高、相似度分数等元数据 |
| 存储形式 | 仅保存 URL、文本、宽高、相似度等元数据(Parquet 文件),原始图像不随数据集一起分发,需自行下载 |
| 文件体积 | 元数据约 800 GB(Parquet),对应的嵌入向量(如 CLIP‑L/14)约 6.2 TB(可选下载) |
| 许可协议 | 元数据采用 CC‑BY 4.0(需注明来源),图像本身遵循原始网页的版权约束 |
| 常用子集 | - laion2B‑en‑aesthetic:在原始数据上进一步筛选出审美评分 ≥ 7 的样本 - laion‑coco:基于 laion2B‑en 生成的 6 亿条合成描述数据集,已在 Hugging Face 上公开 |
| 下载渠道 | 1. 官方博客页面(提供数据概览、下载说明) https://laion.ai/blog/laion-5b/ 2. Hugging Face 数据库(直接通过 datasets 接口下载元数据或在网页上批量下载)https://huggingface.co/datasets/laion/laion2B-en 3. GitHub 镜像 / 索引(提供 Parquet 文件列表、嵌入向量下载) https://github.com/LAION-AI/laion-datasets (含 6.2 TB 的 CLIP‑L/14 嵌入) |
| 使用场景 | - 训练 文本‑图像对齐模型(如 CLIP、OpenCLIP) - 作为 Stable Diffusion、GLIDE、Midjourney 等大规模生成模型的预训练数据 - 进行 跨模态检索、零样本分类、数据清洗与子集构建 等研究工作 |
| 获取示例代码 | 在 Python 中使用 datasets 库快速加载:python<br>from datasets import load_dataset<br>ds = load_dataset("laion/laion2B-en", split="train")<br> |
| (代码仅作示例,实际下载会在后台拉取 Parquet 文件) |
关键链接汇总
- 官方博客(数据集介绍、下载入口)
https://laion.ai/blog/laion-5b/ - Hugging Face 数据集页面(元数据、子集)
https://huggingface.co/datasets/laion/laion2B-en - GitHub 代码库(Parquet 文件列表、嵌入向量)
https://github.com/LAION-AI/laion-datasets - LAION‑COCO(基于 laion2B‑en 的 6 亿合成描述子集)
https://huggingface.co/datasets/laion/laion-coco
使用提示:由于数据仅提供 URL,实际下载图像时需自行检查链接有效性并遵守原始图片的版权要求。若用于商业项目,请确保对每张图片的使用权进行二次确认。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!