什么是MultiID-2M数据集

AI解读 2个月前硕雀

73 0 0

数据集定位
MultiID‑2M 是为 身份一致（ID‑consistent）图像生成 任务专门构建的大规模多人配对数据集，旨在帮助模型在保持参考人物身份的同时，实现姿态、表情、光照等多样化变化。
规模与构成
- 总图像量约 200 万张，分为两部分（Part 1 ≈ 100 万，Part 2 ≈ 100 万）。
- 约 3 000 个身份，每个身份平均拥有约 400 张参考图像。
- 数据来源包括单人图片、多人合照以及网络检索的候选团体照片，覆盖多种场景与姿态。
构建流水线（四阶段）‍
1. 单身份图片收集 & 聚类：从网络抓取单人图片，使用 ArcFace 嵌入进行聚类，形成干净的参考库，得到约 100 万张、3000 个身份的基准图像。
2. 多人候选检索：基于多姓名和场景感知的查询，检索出可能包含目标身份的团体照片，并进行人脸检测。
3. 身份匹配：将检测到的人脸嵌入与单身份聚类中心进行余弦相似度匹配（阈值 0.4），为每张多人图像分配身份标签。
4. 自动过滤与标注：包括去除水印/标志（OCR 检测）、审美评分、基于大语言模型（LLM）的字幕生成等后处理。
配套基准 – MultiID‑Bench
为评估模型在 身份保真度 vs. 多样性 之间的权衡，论文同时推出了 MultiID‑Bench 基准，量化“复制‑粘贴”伪影以及姿态/表情控制能力。
发布与获取方式
- GitHub 项目页（代码、模型检查点、数据下载脚本）： https://github.com/Doby-Xu/WithAnyone 。
- HuggingFace Hub（数据集与 Demo）：在项目发布的同月已同步至 HuggingFace，用户可直接在 HuggingFace Spaces 体验并下载 MultiID‑2M 。
- 数据集分为 Part 1 与 Part 2 两个压缩包，提供公开下载链接（需遵守相应的使用协议）。
典型应用
- 训练 WithAnyone 等新一代可控图像生成模型，实现 多人物、跨姿态、跨表情的身份一致生成。
- 为研究 身份保持、跨场景人像检索、多人姿态估计 等提供高质量标注数据。

小结：MultiID‑2M 通过系统化的四阶段流水线，构建了约 200 万张、3000 个身份的高质量多人配对图像库，并配套 MultiID‑Bench 基准，已在 GitHub 与 HuggingFace 上公开发布，成为当前身份一致图像生成研究的核心资源。

MultiID-2M MultiID-2M数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是MultiID-2M数据集

什么是Flutter

常见AI辅助编程IDE介绍