语义相对偏好优化(Semantic Relative Preference Optimization,SRPO)是由腾讯混元生图团队联合香港中文大学(深圳)和清华大学共同研发的文本‑图像生成算法,2025 年 9 月正式开源。它在现有的扩散模型(如 Flux)之上引入 相对偏好奖励 与 Direct‑Align 两大技术,旨在解决生成图像“油腻”“纹理不自然”等质量问题,并显著提升真实感与美学评分。
1. 背景与动机
- 传统扩散模型在后期时间步进行奖励优化时,容易出现 奖励黑客(reward hacking):模型利用奖励模型的偏好生成颜色偏向、纹理过度平滑的图像,导致“油腻”现象。
- 现有的强化学习或奖励模型方法往往只能在 后期 25% 时间步 调整,训练成本高且难以兼顾多样性。
2. 核心技术
技术 | 作用 | 关键点 |
---|---|---|
Direct‑Align | 在训练过程中把噪声注入干净图像,再通过 单步去噪 恢复原图,使模型能够在 早期时间步 完成有效的图像重建。 避免了后期梯度爆炸和奖励偏差问题。 |
通过预定义噪声先验实现全轨迹优化,支持从任意噪声水平直接恢复结构信息。 |
SRPO(语义相对偏好优化) | 将奖励定义为 文本条件信号:对同一张图像使用 正面提示词 与 负面提示词 计算奖励,取二者的 相对差值 作为优化目标。 实现 在线、动态的奖励调整,无需额外标注数据。 |
正负提示词的相对差值直接驱动模型学习更符合人类审美的特征;在训练中多次注入噪声、对中间图像聚合折扣奖励,抑制后期奖励黑客。 |
3. 训练流程(简化版)
- 噪声注入:对干净图像加入高斯噪声,得到噪声图。
- 单步去噪(Direct‑Align):模型在单一步骤中恢复图像结构。
- 正负提示词奖励:
- 使用正面提示词(如 “realistic photo”)生成图像并计算奖励。
- 使用负面提示词(如 “over‑oil”)生成图像并计算奖励。
- 取两者差值作为 相对偏好奖励。
- 奖励聚合:对多个时间步的奖励进行折扣聚合,形成最终优化目标。
- 迭代训练:重复上述步骤,模型在整个扩散轨迹上持续学习。
4. 关键优势
- 质量提升:在 HPDv2 基准上,真实感评分提升约 3.7 倍,美学评分提升约 3.1 倍;真实感优秀率从 8.2% 提升至 38.9%,美学优秀率从 9.8% 提升至 40.5%。
- 训练效率:仅需 10 分钟(约 1% 传统训练时间)即可在 Flux.1‑dev 基础上实现显著性能突破。
- 低数据需求:无需额外大规模标注数据,仅靠 文本提示 即可实现多风格、跨领域的灵活控制。
- 开源与社区:2025 年 9 月 13 日在 Hugging Face 开源,完整训练代码、技巧文档均已发布,社区量化模型下载量已达 1.6 万,GitHub Star 超 600。
5. 应用场景
- 游戏、影视特效:高真实感人物与场景渲染。
- 广告与营销:快速生成符合品牌审美的视觉素材。
- 虚拟人物/数字人:提升人物皮肤质感,避免“油腻”现象。
- 跨模态创作:结合文本提示实现细粒度风格控制。
6. 与其他方法的区别
方法 | 主要特点 | SRPO 的改进点 |
---|---|---|
Reinforcement Learning with Reward Models | 依赖大量标注奖励数据,奖励往往在后期时间步才起作用。 | 采用 相对偏好(正负提示)实现 在线、全轨迹 优化,降低数据需求。 |
Direct‑Align(单独使用) | 只解决噪声恢复问题,未涉及语义层面的奖励。 | 与 SRPO 结合,既保证早期结构恢复,又通过语义奖励提升视觉质量。 |
传统 Diffusion Fine‑tuning | 仅在固定噪声水平微调,难以跨风格迁移。 | SRPO 的 正负提示 机制使模型能够在同一次训练中学习多种风格偏好。 |
7. 发展前景
- 多模态扩展:已有研究尝试将 SRPO 思路迁移到 多模态大语言模型(LLM) 的自我反思强化学习中,进一步提升视觉‑语言推理能力。
- 跨领域迁移:通过调整提示词,可将 SRPO 应用于 视频生成、3D 建模 等更高维度的生成任务。
总结:SRPO(Semantic Relative Preference Optimization)是一套针对扩散文本‑图像模型的创新训练框架,核心在于 Direct‑Align 与 相对偏好奖励 两大机制。它通过在整个扩散轨迹上进行语义驱动的奖励优化,显著提升生成图像的真实感与美学质量,同时大幅降低训练成本和数据依赖,已在业界开源并得到广泛关注与应用。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!