什么是MultiID-2M数据集

AI解读 2小时前 硕雀
3 0

MultiID‑2M 数据集概览

  1. 数据集定位
    MultiID‑2M 是为 身份一致(ID‑consistent)图像生成 任务专门构建的大规模多人配对数据集,旨在帮助模型在保持参考人物身份的同时,实现姿态、表情、光照等多样化变化。
  2. 规模与构成
    • 总图像量约 200 万张,分为两部分(Part 1 ≈ 100 万,Part 2 ≈ 100 万)。
    • 约 3 000 个身份,每个身份平均拥有约 400 张参考图像
    • 数据来源包括单人图片、多人合照以及网络检索的候选团体照片,覆盖多种场景与姿态。
  3. 构建流水线(四阶段)
    1. 单身份图片收集 & 聚类:从网络抓取单人图片,使用 ArcFace 嵌入进行聚类,形成干净的参考库,得到约 100 万张、3000 个身份的基准图像。
    2. 多人候选检索:基于多姓名和场景感知的查询,检索出可能包含目标身份的团体照片,并进行人脸检测。
    3. 身份匹配:将检测到的人脸嵌入与单身份聚类中心进行余弦相似度匹配(阈值 0.4),为每张多人图像分配身份标签。
    4. 自动过滤与标注:包括去除水印/标志(OCR 检测)、审美评分、基于大语言模型LLM)的字幕生成等后处理。
  4. 配套基准 – MultiID‑Bench
    为评估模型在 身份保真度 vs. 多样性 之间的权衡,论文同时推出了 MultiID‑Bench 基准,量化“复制‑粘贴”伪影以及姿态/表情控制能力。
  5. 发布与获取方式
    • GitHub 项目页(代码、模型检查点、数据下载脚本): https://github.com/Doby-Xu/WithAnyone 。
    • HuggingFace Hub(数据集与 Demo):在项目发布的同月已同步至 HuggingFace,用户可直接在 HuggingFace Spaces 体验并下载 MultiID‑2M 。
    • 数据集分为 Part 1 与 Part 2 两个压缩包,提供公开下载链接(需遵守相应的使用协议)。
  6. 典型应用
    • 训练 WithAnyone 等新一代可控图像生成模型,实现 多人物、跨姿态、跨表情的身份一致生成
    • 为研究 身份保持、跨场景人像检索、多人姿态估计 等提供高质量标注数据。

小结:MultiID‑2M 通过系统化的四阶段流水线,构建了约 200 万张、3000 个身份的高质量多人配对图像库,并配套 MultiID‑Bench 基准,已在 GitHub 与 HuggingFace 上公开发布,成为当前身份一致图像生成研究的核心资源。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!