什么是Direct‑Align技术

Direct‑Align 是一种面向扩散模型Diffusion Model)的全轨迹对齐方法,核心思想是通过预先注入噪声先验,使模型能够在 任意时间步 直接恢复原始图像,从而实现对整个扩散过程的统一优化。该技术最早由腾讯混元大模型团队提出,并在后续的 AI 绘画、文本‑图像生成等场景中得到广泛应用。


1. 技术原理

  1. 噪声先验注入
    • 在扩散过程的任意时刻,模型把噪声与目标图像 进行线性插值,形成扩散状态 。
  2. 直接对齐(Direct‑Align)
    • 通过预定义的噪声先验,模型能够 从高噪声状态直接恢复出清晰图像,不必像传统方法那样只能在后期低噪声阶段进行反向传播。这样可以在 仅 5% 去噪进度 的极早期阶段就恢复出图像的粗略结构。
  3. 全轨迹优化
    • 传统扩散模型的训练往往只在后期时间步进行梯度更新,容易出现梯度爆炸或“奖励作弊”(reward hacking)问题。Direct‑Align 通过在整个轨迹上进行对齐,使模型在 从噪声到图像的完整路径 上都保持一致的优化目标,从而显著提升生成质量。

2. 关键优势

优势 说明
降低梯度爆炸风险 早期时间步不再需要大幅度的梯度反向传播,避免了传统方法的梯度不稳定问题。
提升图像真实感与美学评分 在 Aesthetic predictor v2.5、PickScore 等主流评测指标上,Direct‑Align 已达到或超过 SOTA 水平,结合 SRPO 后提升幅度更大。
减少“奖励作弊” 通过全轨迹对齐,模型更难出现只在特定阶段“作弊”提升分数的现象,整体生成质量更稳健。
加速训练与推理 只需在极少的去噪步骤(如 5%)即可恢复结构,显著缩短训练时间,SRPO 只需 10 分钟即可超越最新开源模型。
广泛适用 已在 AI 绘画、文本‑图像生成、图像去油(去除“油腻”风格)等多种场景中验证有效。

3. 典型应用场景

  1. AI 绘画质量提升
  2. 图像去油/风格调节
    • 在“去油”任务中,Direct‑Align 能够直接从噪声恢复出更自然的图像,解决了传统方法在早期去噪时产生的噪点和失真问题。
  3. 跨模态生成
    • 在文本‑图像生成(如大模型生图)中,利用全轨迹对齐,使模型更好地对齐人类偏好,提高生成结果的可控性和一致性。

4. 发展前景与挑战

  • 进一步降低计算成本:虽然 Direct‑Align 已显著加速训练,但在大规模模型上仍需优化噪声先验的生成与注入效率。
  • 跨领域迁移:目前主要聚焦于视觉生成任务,未来可探索在音频、视频等时序生成任务中的全轨迹对齐潜力。
  • 与其他对齐技术融合:如 RLHF强化学习对齐)等方法的结合,可能进一步提升模型对复杂人类偏好的理解与实现。

5. 小结

Direct‑Align 通过 噪声先验的预注入 与 全轨迹对齐,突破了传统扩散模型在早期时间步的梯度不稳定和奖励作弊问题,实现了更高效、更稳健的图像生成。它已经在 AI 绘画、图像去油、文本‑图像生成等多个实际场景中展现出显著的质量提升,并为后续的跨模态生成与对齐技术提供了重要的技术基石。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!