复旦大学&StepFun提出WithAnyone,实现可控、高保真的多人ID一致性生成

AI资讯 2小时前 硕雀
3 0

WithAnyone:可控、高保真、多人 ID 一致性图像生成系统概述


1. 背景与核心挑战

在文本‑到‑图像(Text‑to‑Image)生成任务中,保持人物身份一致性是关键需求。传统扩散模型在给定参考人脸时常出现“复制‑粘贴”伪影——直接拷贝参考图像而缺乏姿态、表情、光照等自然变化,导致生成结果既不真实也缺乏多样性。因此,需要一种既能忠实保留身份特征、又能灵活控制姿态/表情等属性的生成方案。


2. 大规模配对数据集 MultiID‑2M

  • 规模:约 50 万张多人合影(已标注身份)+ 150 万张未配对图像,共计 200 万 图像。
  • 身份覆盖:3000 个参考身份,每个身份提供多张高质量人脸;另外 25000 个独特身份用于未配对训练。
  • 构建流程:四阶段数据收集 → 人脸检测 → 身份聚类 → 手工校验,确保配对数据的准确性与多样性。

该数据集为 多身份 场景提供了前所未有的监督信号,直接支撑后续模型的 身份一致性 学习。


3. 基准评测套件 MultiID‑Bench

  • 指标
    • ID‑Similarity(身份相似度)
    • Copy‑Paste Rate(复制‑粘贴伪影比例)
    • 视觉质量(FID、LPIPS 等)
  • 目的量化模型在 保真度 vs. 多样性 之间的权衡,帮助评估是否真正突破了“复制‑粘贴”瓶颈。

实验表明,使用 MultiID‑Bench 能够客观揭示不同方法在身份保持和生成多样性上的差距。


4. 模型架构 WithAnyone

  • 基础模型:基于 FLUX(最新的扩散模型)构建,继承其高分辨率、强文本理解能力。
  • 关键模块
    • 对比身份损失(Contrastive Identity Loss)‍:利用配对数据在潜在空间拉近同一身份的图像,同时拉远不同身份的图像,显式约束身份特征的分布。
    • 跨身份注意机制:在扩散过程的噪声预测阶段注入多身份特征,实现 多人 ID 同步生成
  • 训练策略:四阶段渐进式训练——从 重建(像素‑层面) → 身份‑条件重建 → 对比身份学习 → 全局可控生成,逐步提升模型对身份的感知与生成能力。

该设计在保持 高保真视觉质量 的同时,有效抑制了复制‑粘贴伪影,实现了 可控的姿态、表情、光照等属性 变化。


5. 可控性与多身份生成

  • 多身份输入:用户可一次性提供 N > 1 的参考人脸,模型在同一图像中生成对应的多人物场景。
  • 属性控制:通过文本提示或 LoRA 参数,可调节每个人物的 姿态、表情、服装、背景 等;LoRA 中的相似度滑块直接控制生成图像与参考图像的身份相似度。
  • 交互式编辑:支持 边框框选手动/自动人脸检测,便于在实际创作流程中快速替换或添加人物。

这些特性让 WithAnyone 成为 创意设计、影视前期、虚拟人物制作 等场景的实用工具。


6. 实验结果与优势

指标 WithAnyone 传统 DreamBooth / Textual‑Inversion
ID‑Similarity ↑ 0.87(显著提升) 0.71
Copy‑Paste Rate ↓ 3.2 %(低于 15 %) 14.8 %
FID ↓ 12.4(更逼真) 21.7
用户满意度 ↑ 92 %(主观评价) 68 %

实验显示,WithAnyone 显著降低复制‑粘贴缺陷,在保持高身份相似度的同时,视觉质量也得到提升。用户调研进一步验证了其 高保真与可控 的实际感受。


7. 开源实现与使用指南

  • 论文标题: WithAnyone: Towards Controllable and ID Consistent Image Generation
  • 作者团队: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
  • 所属机构: 复旦大学, StepFun
  • 论文地址: https://arxiv.org/abs/2510.14975
  • 项目主页: https://doby-xu.github.io/WithAnyone/
  • 代码仓库: https://github.com/Doby-Xu/WithAnyone(Apache 2.0,非商业学术使用)。
  • 模型发布:提供 WithAnyone‑FLUX.1WithAnyone‑K.preview 等多种变体,均可通过 LoRA 进行二次微调。
  • 快速上手
    1. 下载模型权重 → 2. 准备参考人脸(自动检测或手动框选) → 3. 编写文本提示或调节 LoRA 参数 → 4. 运行推理脚本即可得到多人物一致性图像。

8. 小结

WithAnyone 通过 大规模配对数据集 MultiID‑2M对比身份损失 与 FLUX‑based 扩散架构 的深度融合,成功解决了长期困扰图像生成的 身份一致性 与 复制‑粘贴 问题。它不仅在客观指标上实现了显著提升,还提供了灵活的多身份与属性控制,已在创意产业、虚拟人物制作等多个实际场景中展现出强大的应用价值。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!