复旦大学&StepFun提出WithAnyone，实现可控、高保真的多人ID一致性生成

AI资讯 2个月前硕雀

52 0 0

WithAnyone：可控、高保真、多人 ID 一致性图像生成系统概述

1. 背景与核心挑战

在文本‑到‑图像（Text‑to‑Image）生成任务中，保持人物身份一致性是关键需求。传统扩散模型在给定参考人脸时常出现“复制‑粘贴”伪影——直接拷贝参考图像而缺乏姿态、表情、光照等自然变化，导致生成结果既不真实也缺乏多样性。因此，需要一种既能忠实保留身份特征、又能灵活控制姿态/表情等属性的生成方案。

2. 大规模配对数据集 MultiID‑2M

规模：约 50 万张多人合影（已标注身份）+ 150 万张未配对图像，共计 200 万 图像。
身份覆盖：3000 个参考身份，每个身份提供多张高质量人脸；另外 25000 个独特身份用于未配对训练。
构建流程：四阶段数据收集 → 人脸检测 → 身份聚类 → 手工校验，确保配对数据的准确性与多样性。

该数据集为 多身份 场景提供了前所未有的监督信号，直接支撑后续模型的 身份一致性 学习。

3. 基准评测套件 MultiID‑Bench

指标：
- ID‑Similarity（身份相似度）
- Copy‑Paste Rate（复制‑粘贴伪影比例）
- 视觉质量（FID、LPIPS 等）
目的：量化模型在 保真度 vs. 多样性 之间的权衡，帮助评估是否真正突破了“复制‑粘贴”瓶颈。

实验表明，使用 MultiID‑Bench 能够客观揭示不同方法在身份保持和生成多样性上的差距。

4. 模型架构 WithAnyone

基础模型：基于 FLUX（最新的扩散模型）构建，继承其高分辨率、强文本理解能力。
关键模块：
- 对比身份损失（Contrastive Identity Loss）‍：利用配对数据在潜在空间拉近同一身份的图像，同时拉远不同身份的图像，显式约束身份特征的分布。
- 跨身份注意机制：在扩散过程的噪声预测阶段注入多身份特征，实现 多人 ID 同步生成。
训练策略：四阶段渐进式训练——从重建（像素‑层面） → 身份‑条件重建 → 对比身份学习 → 全局可控生成，逐步提升模型对身份的感知与生成能力。

该设计在保持 高保真视觉质量 的同时，有效抑制了复制‑粘贴伪影，实现了 可控的姿态、表情、光照等属性 变化。

5. 可控性与多身份生成

多身份输入：用户可一次性提供 N > 1 的参考人脸，模型在同一图像中生成对应的多人物场景。
属性控制：通过文本提示或 LoRA 参数，可调节每个人物的 姿态、表情、服装、背景 等；LoRA 中的相似度滑块直接控制生成图像与参考图像的身份相似度。
交互式编辑：支持 边框框选、手动/自动人脸检测，便于在实际创作流程中快速替换或添加人物。

这些特性让 WithAnyone 成为 创意设计、影视前期、虚拟人物制作 等场景的实用工具。

6. 实验结果与优势

指标	WithAnyone	传统 DreamBooth / Textual‑Inversion
ID‑Similarity ↑	0.87（显著提升）	0.71
Copy‑Paste Rate ↓	3.2 %（低于 15 %）	14.8 %
FID ↓	12.4（更逼真）	21.7
用户满意度 ↑	92 %（主观评价）	68 %

实验显示，WithAnyone 显著降低复制‑粘贴缺陷，在保持高身份相似度的同时，视觉质量也得到提升。用户调研进一步验证了其 高保真与可控 的实际感受。

7. 开源实现与使用指南

论文标题: WithAnyone: Towards Controllable and ID Consistent Image Generation
作者团队: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
所属机构: 复旦大学, StepFun
论文地址: https://arxiv.org/abs/2510.14975
项目主页: https://doby-xu.github.io/WithAnyone/
代码仓库: https://github.com/Doby-Xu/WithAnyone（Apache 2.0，非商业学术使用）。
模型发布：提供 WithAnyone‑FLUX.1、WithAnyone‑K.preview 等多种变体，均可通过 LoRA 进行二次微调。
快速上手：
1. 下载模型权重 → 2. 准备参考人脸（自动检测或手动框选） → 3. 编写文本提示或调节 LoRA 参数 → 4. 运行推理脚本即可得到多人物一致性图像。

8. 小结

WithAnyone 通过 大规模配对数据集 MultiID‑2M、对比身份损失 与 FLUX‑based 扩散架构 的深度融合，成功解决了长期困扰图像生成的 身份一致性 与 复制‑粘贴 问题。它不仅在客观指标上实现了显著提升，还提供了灵活的多身份与属性控制，已在创意产业、虚拟人物制作等多个实际场景中展现出强大的应用价值。

WithAnyone

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

复旦大学&StepFun提出WithAnyone，实现可控、高保真的多人ID一致性生成

1. 背景与核心挑战

2. 大规模配对数据集 MultiID‑2M

3. 基准评测套件 MultiID‑Bench

4. 模型架构 WithAnyone

5. 可控性与多身份生成

6. 实验结果与优势

7. 开源实现与使用指南

8. 小结

AI快速发展，Photoshop面临严峻挑战

HuggingFace发布 《训练大模型实战指南》，手把手教你训练大模型

复旦大学&StepFun提出WithAnyone，实现可控、高保真的多人ID一致性生成

1. 背景与核心挑战

2. 大规模配对数据集 MultiID‑2M

3. 基准评测套件 MultiID‑Bench

4. 模型架构 WithAnyone

5. 可控性与多身份生成

6. 实验结果与优势

7. 开源实现与使用指南

8. 小结

AI快速发展，Photoshop面临严峻挑战

HuggingFace发布 《训练大模型实战指南》，手把手教你训练大模型

HuggingFace发布 《训练大模型实战指南》，手把手教你训练大模型