WithAnyone:可控、高保真、多人 ID 一致性图像生成系统概述
1. 背景与核心挑战
在文本‑到‑图像(Text‑to‑Image)生成任务中,保持人物身份一致性是关键需求。传统扩散模型在给定参考人脸时常出现“复制‑粘贴”伪影——直接拷贝参考图像而缺乏姿态、表情、光照等自然变化,导致生成结果既不真实也缺乏多样性。因此,需要一种既能忠实保留身份特征、又能灵活控制姿态/表情等属性的生成方案。
2. 大规模配对数据集 MultiID‑2M
- 规模:约 50 万张多人合影(已标注身份)+ 150 万张未配对图像,共计 200 万 图像。
- 身份覆盖:3000 个参考身份,每个身份提供多张高质量人脸;另外 25000 个独特身份用于未配对训练。
- 构建流程:四阶段数据收集 → 人脸检测 → 身份聚类 → 手工校验,确保配对数据的准确性与多样性。
该数据集为 多身份 场景提供了前所未有的监督信号,直接支撑后续模型的 身份一致性 学习。
3. 基准评测套件 MultiID‑Bench
- 指标:
- ID‑Similarity(身份相似度)
- Copy‑Paste Rate(复制‑粘贴伪影比例)
- 视觉质量(FID、LPIPS 等)
- 目的:量化模型在 保真度 vs. 多样性 之间的权衡,帮助评估是否真正突破了“复制‑粘贴”瓶颈。
实验表明,使用 MultiID‑Bench 能够客观揭示不同方法在身份保持和生成多样性上的差距。
4. 模型架构 WithAnyone
- 基础模型:基于 FLUX(最新的扩散模型)构建,继承其高分辨率、强文本理解能力。
- 关键模块:
- 对比身份损失(Contrastive Identity Loss):利用配对数据在潜在空间拉近同一身份的图像,同时拉远不同身份的图像,显式约束身份特征的分布。
- 跨身份注意机制:在扩散过程的噪声预测阶段注入多身份特征,实现 多人 ID 同步生成。
- 训练策略:四阶段渐进式训练——从 重建(像素‑层面) → 身份‑条件重建 → 对比身份学习 → 全局可控生成,逐步提升模型对身份的感知与生成能力。
该设计在保持 高保真视觉质量 的同时,有效抑制了复制‑粘贴伪影,实现了 可控的姿态、表情、光照等属性 变化。
5. 可控性与多身份生成
- 多身份输入:用户可一次性提供 N > 1 的参考人脸,模型在同一图像中生成对应的多人物场景。
- 属性控制:通过文本提示或 LoRA 参数,可调节每个人物的 姿态、表情、服装、背景 等;LoRA 中的相似度滑块直接控制生成图像与参考图像的身份相似度。
- 交互式编辑:支持 边框框选、手动/自动人脸检测,便于在实际创作流程中快速替换或添加人物。
这些特性让 WithAnyone 成为 创意设计、影视前期、虚拟人物制作 等场景的实用工具。
6. 实验结果与优势
| 指标 | WithAnyone | 传统 DreamBooth / Textual‑Inversion |
|---|---|---|
| ID‑Similarity ↑ | 0.87(显著提升) | 0.71 |
| Copy‑Paste Rate ↓ | 3.2 %(低于 15 %) | 14.8 % |
| FID ↓ | 12.4(更逼真) | 21.7 |
| 用户满意度 ↑ | 92 %(主观评价) | 68 % |
实验显示,WithAnyone 显著降低复制‑粘贴缺陷,在保持高身份相似度的同时,视觉质量也得到提升。用户调研进一步验证了其 高保真与可控 的实际感受。
7. 开源实现与使用指南
-
论文标题: WithAnyone: Towards Controllable and ID Consistent Image Generation -
作者团队: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang -
所属机构: 复旦大学, StepFun -
论文地址: https://arxiv.org/abs/2510.14975 -
项目主页: https://doby-xu.github.io/WithAnyone/ -
代码仓库: https://github.com/Doby-Xu/WithAnyone(Apache 2.0,非商业学术使用)。 - 模型发布:提供 WithAnyone‑FLUX.1、WithAnyone‑K.preview 等多种变体,均可通过 LoRA 进行二次微调。
- 快速上手:
- 下载模型权重 → 2. 准备参考人脸(自动检测或手动框选) → 3. 编写文本提示或调节 LoRA 参数 → 4. 运行推理脚本即可得到多人物一致性图像。
8. 小结
WithAnyone 通过 大规模配对数据集 MultiID‑2M、对比身份损失 与 FLUX‑based 扩散架构 的深度融合,成功解决了长期困扰图像生成的 身份一致性 与 复制‑粘贴 问题。它不仅在客观指标上实现了显著提升,还提供了灵活的多身份与属性控制,已在创意产业、虚拟人物制作等多个实际场景中展现出强大的应用价值。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!