什么是JoyTag

AI解读 6小时前 硕雀
2 0

JoyTag 简介

JoyTag 是一款开源的 多标签图像标注(image tagging)模型,旨在为各种类型的图片(包括手绘、动漫、摄影等)自动生成丰富、包容且性别积极的标签。它基于 ViT‑B/16 视觉 Transformer 架构,输入分辨率 448×448×3,模型参数约 9.1 千万,支持 5000+ 细粒度标签,采用 Danbooru 2021 标签体系进行训练。

关键特性 说明
多标签输出 同一张图片可返回多个标签,适合图像检索数据标注、Diffusion 模型训练等场景
性别积极 & 包容性 设计时强调对多样化内容的宽容与正向表达,避免传统内容过滤,适用于需要开放标签的创作社区
开源 & 易集成 代码托管在 GitHub,提供 ComfyUI 节点、Hugging Face Space 在线演示,可直接在 ComfyUI Manager 中安装
训练规模 使用 Danbooru 2021 数据集 + 手工标注图像,累计约 660 M 训练样本,采用 LAMB 优化器、Trivial AugmentFocal Loss 等技巧提升泛化能力
性能指标 在多标签任务上取得平均 F1≈0.578,在动漫与摄影图像上均表现良好

主要组成与工作原理

  1. 模型结构:ViT‑B/16 视觉 Transformer,输入图像经切片后通过自注意力层提取特征,最后通过多标签分类头输出每个标签的置信度
  2. 标签体系:采用 Danbooru 标准标签(约 5000 条),覆盖人物、场景、物体、情感等多维度信息。
  3. 训练数据:结合公开的 Danbooru 2021 数据集与自行标注的摄影/手绘图像,提升对非动漫内容的识别能力。
  4. 推理方式:用户上传图片后,模型返回置信度最高的若干标签,可自行设定阈值过滤低置信度标签。

常见使用场景

  • AI 生成艺术的标签生成:为 Diffusion、Stable Diffusion 等模型提供高质量标签,提升生成效果。
  • 图片检索与管理:自动为海量图片打标签,便于后续搜索与分类。
  • 内容审查与过滤:在需要保留多样化表达的社区中,使用 JoyTag 替代传统过滤模型,实现更开放的标签体系。
  • ComfyUI 工作流:通过 JoyTag 节点直接在 ComfyUI 中调用,实现图像标签的实时生成与后处理。

获取方式与重要链接

链接 说明
GitHub 项目(ComfyUI JoyTag 节点) https://github.com/StartHua/Comfyui_joytag
原始模型仓库 https://github.com/fpgaminer/joytag
Hugging Face 模型页面 https://huggingface.co/fancyfeast/joytag
在线演示(Hugging Face Space) https://huggingface.co/spaces/fancyfeast/joytag-demo (可直接上传图片体验)
ComfyUI 使用教程 https://aisc.chinaz.com/jiaocheng/10372.html
技术博客(模型原理与评测) https://www.marktechpost.com/2023/12/24/meet-joytag-an-inclusive-image-tagging-ai-model/
模型文档与参数说明 https://www.aigeek.cc/joytag/

使用提示:在 ComfyUI 中安装 JoyTag 节点后,可在节点属性中调节 阈值、正面/负面提示词、是否启用安全模式 等参数,以适配不同的创作需求。


小结
JoyTag 通过先进的 ViT‑B/16 架构、庞大的多标签训练数据以及对性别积极与内容包容性的设计,提供了一套高效、开放的图像自动标注解决方案。它已在开源社区、AI 艺术创作平台以及图像管理系统中得到广泛应用,用户可通过上述链接快速获取模型、源码或在线演示,进一步集成到自己的工作流中。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!