1. 什么是 Danbooru 2021 数据集
Danbooru 2021 是由 Danbooru 社区在 2021 年公开的、面向二次元(动漫)插画的大规模众包标注数据集。它收录了数百万张动漫风格的图片,并为每张图片提供了细粒度的标签,成为计算机视觉、生成模型和跨模态检索等研究的常用基准。
2. 数据规模与内容
- 图片数量:约 4.9 百万 张(以 512 px SFW 子集为例),其中超过 80 % 的图像分辨率在 1024 × 768 以上。
- 标签数量:累计 162 百万 条标签,覆盖角色、作者、作品、颜色、姿态、场景等多维信息。
- 标签层级:标签体系分为五大类(角色、艺术家、作品、元信息、评分),每类下又细分数千甚至上万的子标签,能够对图像进行极其细致的描述。
3. 标签体系示例
| 类别 | 示例标签 | 说明 |
|---|---|---|
| 角色 | rem_(re:zero), hatsune_miku |
具体人物或虚构角色 |
| 艺术家 | artist_name |
绘师 ID |
| 作品 | anime_title, manga_title |
所属作品 |
| 元信息 | solo, transparent_background, full_body |
场景或构图属性 |
| 评分 | s(安全)、q(疑似)等 |
内容安全等级 |
4. 下载方式与获取链接
- 官方下载:数据通过公开的 rsync 服务器提供(BitTorrent 已停止),可直接同步整个数据集。
- Kaggle 子集:一个约 300 k 张 512 px SFW 子集(结合 Danbooru 2017 与 Nagadomi 的 moeimouto 人脸数据)已在 Kaggle 上以 “Tagged Anime Illustrations” 形式发布,体积约 36 GB。
- 元数据:完整的标签文件(CSV/JSON)同样可在官方页面下载,便于离线解析。
获取入口
- 官方页面(含下载说明、标签统计):Danbooru2021: A Large-Scale Crowdsourced & Tagged Anime Illustration Dataset · Gwern.net
- Kaggle 子集页面(需登录 Kaggle):<https://www.kaggle.com/datasets/username/tagged-anime-illustrations >(示例链接,实际名称请在 Kaggle 搜索 “Tagged Anime Illustrations”)
5. 常见研究与应用场景
| 场景 | 典型工作 | 说明 |
|---|---|---|
| 图像生成 | DanbooruCLIP、Stable‑Diffusion 微调 | 利用海量标签进行文本‑图像对齐,提升二次元风格生成质量 |
| 分类/检索 | 多标签分类、跨模态检索模型 | 通过 162 M 标签训练大规模多标签分类器,实现细粒度角色检索 |
| 线稿上色 | GAN、Diffusion‑based 线稿上色模型 | 选取 line_art、transparent_background 等标签构建专用子集进行训练 |
| 风格迁移 | Anime‑to‑real、角色风格迁移 | 利用多样化的场景与姿态标签,提升迁移模型的鲁棒性 |
| 数据增强 | 生成式对抗网络的预训练 | 大规模多样本提供丰富的视觉概念,帮助模型学习通用特征 |
6. 使用注意事项
- 版权与使用协议:数据集本身遵循 Danbooru 社区的 BSD‑2‑Clause 许可,使用时需保留原始版权信息。
- 安全过滤:官方提供的 SFW(安全)子集已过滤掉不适宜内容,若需要完整数据请自行在 rsync 中选择对应目录并自行进行过滤。
- 存储需求:完整 512 px SFW 子集约 200 GB(图片)+ 30 GB(标签),请准备足够的磁盘空间。
总结:Danbooru 2021 是目前二次元视觉研究中规模最大、标签最细致的公开数据集,提供了约 5 百万张高质量动漫插画及 162 百万条标签,支持从图像生成、分类到跨模态检索的多种任务。官方通过 rsync 提供完整下载,Kaggle 上也有便于快速实验的子集,研究者可根据需求灵活获取并在遵守许可的前提下使用。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!