JoyTag 简介
JoyTag 是一款开源的 多标签图像标注(image tagging)模型,旨在为各种类型的图片(包括手绘、动漫、摄影等)自动生成丰富、包容且性别积极的标签。它基于 ViT‑B/16 视觉 Transformer 架构,输入分辨率 448×448×3,模型参数约 9.1 千万,支持 5000+ 细粒度标签,采用 Danbooru 2021 标签体系进行训练。
| 关键特性 | 说明 |
|---|---|
| 多标签输出 | 同一张图片可返回多个标签,适合图像检索、数据标注、Diffusion 模型训练等场景 |
| 性别积极 & 包容性 | 设计时强调对多样化内容的宽容与正向表达,避免传统内容过滤,适用于需要开放标签的创作社区 |
| 开源 & 易集成 | 代码托管在 GitHub,提供 ComfyUI 节点、Hugging Face Space 在线演示,可直接在 ComfyUI Manager 中安装 |
| 训练规模 | 使用 Danbooru 2021 数据集 + 手工标注图像,累计约 660 M 训练样本,采用 LAMB 优化器、Trivial Augment、Focal Loss 等技巧提升泛化能力 |
| 性能指标 | 在多标签任务上取得平均 F1≈0.578,在动漫与摄影图像上均表现良好 |
主要组成与工作原理
- 模型结构:ViT‑B/16 视觉 Transformer,输入图像经切片后通过自注意力层提取特征,最后通过多标签分类头输出每个标签的置信度。
- 标签体系:采用 Danbooru 标准标签(约 5000 条),覆盖人物、场景、物体、情感等多维度信息。
- 训练数据:结合公开的 Danbooru 2021 数据集与自行标注的摄影/手绘图像,提升对非动漫内容的识别能力。
- 推理方式:用户上传图片后,模型返回置信度最高的若干标签,可自行设定阈值过滤低置信度标签。
常见使用场景
- AI 生成艺术的标签生成:为 Diffusion、Stable Diffusion 等模型提供高质量标签,提升生成效果。
- 图片检索与管理:自动为海量图片打标签,便于后续搜索与分类。
- 内容审查与过滤:在需要保留多样化表达的社区中,使用 JoyTag 替代传统过滤模型,实现更开放的标签体系。
- ComfyUI 工作流:通过 JoyTag 节点直接在 ComfyUI 中调用,实现图像标签的实时生成与后处理。
获取方式与重要链接
| 链接 | 说明 |
|---|---|
| GitHub 项目(ComfyUI JoyTag 节点) | https://github.com/StartHua/Comfyui_joytag |
| 原始模型仓库 | https://github.com/fpgaminer/joytag |
| Hugging Face 模型页面 | https://huggingface.co/fancyfeast/joytag |
| 在线演示(Hugging Face Space) | https://huggingface.co/spaces/fancyfeast/joytag-demo (可直接上传图片体验) |
| ComfyUI 使用教程 | https://aisc.chinaz.com/jiaocheng/10372.html |
| 技术博客(模型原理与评测) | https://www.marktechpost.com/2023/12/24/meet-joytag-an-inclusive-image-tagging-ai-model/ |
| 模型文档与参数说明 | https://www.aigeek.cc/joytag/ |
使用提示:在 ComfyUI 中安装 JoyTag 节点后,可在节点属性中调节 阈值、正面/负面提示词、是否启用安全模式 等参数,以适配不同的创作需求。
小结
JoyTag 通过先进的 ViT‑B/16 架构、庞大的多标签训练数据以及对性别积极与内容包容性的设计,提供了一套高效、开放的图像自动标注解决方案。它已在开源社区、AI 艺术创作平台以及图像管理系统中得到广泛应用,用户可通过上述链接快速获取模型、源码或在线演示,进一步集成到自己的工作流中。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!