什么是语义相对偏好优化(SRPO)技术

语义相对偏好优化Semantic Relative Preference Optimization,SRPO)是由腾讯混元生图团队联合香港中文大学(深圳)和清华大学共同研发的文本‑图像生成算法,2025 年 9 月正式开源。它在现有的扩散模型(如 Flux)之上引入 相对偏好奖励 与 Direct‑Align 两大技术,旨在解决生成图像“油腻”“纹理不自然”等质量问题,并显著提升真实感与美学评分。


1. 背景与动机

  • 传统扩散模型在后期时间步进行奖励优化时,容易出现 奖励黑客(reward hacking):模型利用奖励模型的偏好生成颜色偏向、纹理过度平滑的图像,导致“油腻”现象。
  • 现有的强化学习或奖励模型方法往往只能在 后期 25% 时间步 调整,训练成本高且难以兼顾多样性。

2. 核心技术

技术 作用 关键点
Direct‑Align 在训练过程中把噪声注入干净图像,再通过 单步去噪 恢复原图,使模型能够在 早期时间步 完成有效的图像重建
避免了后期梯度爆炸和奖励偏差问题。
通过预定义噪声先验实现全轨迹优化,支持从任意噪声水平直接恢复结构信息。
SRPO(语义相对偏好优化) 将奖励定义为 文本条件信号:对同一张图像使用 正面提示词 与 负面提示词 计算奖励,取二者的 相对差值 作为优化目标。
实现 在线、动态的奖励调整,无需额外标注数据。
正负提示词的相对差值直接驱动模型学习更符合人类审美的特征;在训练中多次注入噪声、对中间图像聚合折扣奖励,抑制后期奖励黑客。

3. 训练流程(简化版)

  1. 噪声注入:对干净图像加入高斯噪声,得到噪声图。
  2. 单步去噪(Direct‑Align):模型在单一步骤中恢复图像结构。
  3. 正负提示词奖励
    • 使用正面提示词(如 “realistic photo”)生成图像并计算奖励。
    • 使用负面提示词(如 “over‑oil”)生成图像并计算奖励。
    • 取两者差值作为 相对偏好奖励
  4. 奖励聚合:对多个时间步的奖励进行折扣聚合,形成最终优化目标。
  5. 迭代训练:重复上述步骤,模型在整个扩散轨迹上持续学习。

4. 关键优势

  • 质量提升:在 HPDv2 基准上,真实感评分提升约 3.7 倍,美学评分提升约 3.1 倍;真实感优秀率从 8.2% 提升至 38.9%,美学优秀率从 9.8% 提升至 40.5%。
  • 训练效率:仅需 10 分钟(约 1% 传统训练时间)即可在 Flux.1‑dev 基础上实现显著性能突破。
  • 低数据需求:无需额外大规模标注数据,仅靠 文本提示 即可实现多风格、跨领域的灵活控制。
  • 开源与社区:2025 年 9 月 13 日在 Hugging Face 开源,完整训练代码、技巧文档均已发布,社区量化模型下载量已达 1.6 万GitHub Star 超 600

5. 应用场景

  • 游戏、影视特效:高真实感人物与场景渲染。
  • 广告与营销:快速生成符合品牌审美的视觉素材。
  • 虚拟人物/数字人:提升人物皮肤质感,避免“油腻”现象。
  • 跨模态创作:结合文本提示实现细粒度风格控制。

6. 与其他方法的区别

方法 主要特点 SRPO 的改进点
Reinforcement Learning with Reward Models 依赖大量标注奖励数据,奖励往往在后期时间步才起作用。 采用 相对偏好(正负提示)实现 在线、全轨迹 优化,降低数据需求。
Direct‑Align(单独使用) 只解决噪声恢复问题,未涉及语义层面的奖励。 与 SRPO 结合,既保证早期结构恢复,又通过语义奖励提升视觉质量。
传统 Diffusion Fine‑tuning 仅在固定噪声水平微调,难以跨风格迁移。 SRPO 的 正负提示 机制使模型能够在同一次训练中学习多种风格偏好。

7. 发展前景

  • 多模态扩展:已有研究尝试将 SRPO 思路迁移到 多模态大语言模型LLM 的自我反思强化学习中,进一步提升视觉‑语言推理能力。
  • 跨领域迁移:通过调整提示词,可将 SRPO 应用于 视频生成、3D 建模 等更高维度的生成任务。

总结:SRPO(Semantic Relative Preference Optimization)是一套针对扩散文本‑图像模型的创新训练框架,核心在于 Direct‑Align 与 相对偏好奖励 两大机制。它通过在整个扩散轨迹上进行语义驱动的奖励优化,显著提升生成图像的真实感与美学质量,同时大幅降低训练成本和数据依赖,已在业界开源并得到广泛关注与应用。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!