Difussion Model、Flow Matching 与 Rectified Flow解析

AI解读 8小时前 硕雀
7 0

一、Diffusion Model扩散模型

扩散模型是一类生成式模型,它通过学习一种“去噪”过程来从随机噪声中逐步恢复出高质量的数据。模型在训练阶段先模拟向数据中加入噪声的正向过程,然后在生成阶段逆转该过程,逐步去除噪声,最终得到逼真的图像、视频或其他模态的样本。

  • 核心思路:把复杂的数据分布转化为一系列简单的噪声分布之间的转换,使得模型只需学习如何在每一步去除少量噪声即可完成生成。
  • 技术演进:最早的扩散模型在图像合成上已经超过了 GAN,随后出现了 Latent Diffusion(在潜在特征空间进行扩散)和 Stable Diffusion 等高效变体,这些模型在保持生成质量的同时显著降低了计算成本。
  • 应用场景
    • 文本到图像(如 DALL·E、Stable Diffusion)
    • 文本到视频(如 OpenAISora、Stability AI 的 Stable Video Diffusion)
    • 结构化数据生成(材料设计、药物分子)
  • 优势:生成质量高、模式覆盖广、训练过程相对稳定,且易于与条件信息(文本、标签、深度图等)结合,实现多模态生成。

二、Flow Matching(流匹配)

流匹配是一种新兴的生成建模框架,它直接学习从一个简单分布(如标准正态)到目标数据分布的连续流动路径。与传统扩散模型的“噪声‑去噪”循环不同,流匹配通过匹配每个时间点的速度场(即流动方向)来训练模型,使得生成过程可以一次性或少步完成。

  • 基本概念:在训练时,模型被迫对齐(匹配)从噪声到数据的瞬时流动向量,从而学习一个完整的生成流。该方法不依赖显式的噪声调度,理论上可以实现更快的采样速度。
  • 研究进展
    • Diff2Flow 将流匹配与扩散模型对齐,展示了两者在目标分布学习上的等价性。
    • Score Distillation of Flow Matching 进一步提出了利用分数函数对流匹配进行蒸馏的技术,提升了模型的鲁棒性和采样效率。
    • 系列综述(如《Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis》)系统比较了流匹配与扩散桥的异同,指出流匹配在理论上更具灵活性,能够更好地适配不同数据结构
  • 优势与挑战
    • 优势:采样步数大幅减少,训练过程更直接;对高维连续数据(图像、点云、音频)都有良好适配性。
    • 挑战:需要精确估计速度场,训练时对数值稳定性要求更高,当前仍在不断优化的阶段。

三、Rectified Flow(校正流)

Rectified Flow 是对流匹配的一种改进,旨在通过“校正”技术进一步压缩采样步数并提升生成质量。它在训练阶段对流动路径进行校正,使得在少数几步甚至一步采样时仍能保持高保真度。

  • 关键技术:通过对流动的速度场进行校正,使得生成路径更接近最短路径,从而在极少步数下仍能恢复细节丰富的样本。
  • 实验成果
    • 图像生成任务中,Rectified Flow 能在 1‑2 步 内实现与传统扩散模型 50‑100 步 相当的视觉质量,显著提升了推理速度。
    • 该方法已被用于 高分辨率图像视频帧生成 以及 跨模态迁移,展示了在实际应用中的广泛潜力。
  • 与其他方法的关系:Rectified Flow 可以视作流匹配的一个特例,专注于通过校正来解决采样效率瓶颈,同时保持与原始流匹配模型相同的理论框架。

三者对比概览

维度 Diffusion Model Flow Matching Rectified Flow
生成路径 多步噪声‑去噪链(随机) 通过随机插值学习 一阶速度场(可直接 ODE 直接学习 直线轨迹 的速度场
训练损失 噪声/得分预测 MSE(时间加权) 速度场回归 MSE(一次采样) 直线导数回归 MSE(一次采样)
采样步数 20‑1000+(需蒸馏/一致性加速) 5‑15(ODE 求解) 1‑4(单步或少步 ODE)
计算成本 高(噪声链、时间离散) 中等(仅一次前向) 低(一次前向 + 简单 ODE)
适用场景 高保真图像、视频、科学模拟 条件生成、跨域迁移、音频、分子 超高速图像/视频生成、跨模态翻译、音频
最新趋势 采样蒸馏、物理约束、Latent Diffusion 高阶流、切换流、无平衡流 大模型扩展、边界约束、递归校正、统一多模态框架

小结

  • Diffusion Model 仍是生成质量的基准,尤其在高分辨率图像和科学模拟上表现突出,但其多步采样是速度瓶颈。
  • Flow Matching 通过一次性学习速度场显著提升训练与推理效率,已在音频、分子、跨域任务中展现竞争力。
  • Rectified Flow 进一步把路径“直线化”,实现 单步或极少步采样,并通过递归校正和边界约束等技术不断提升生成质量,正向多模态统一模型迈进。

这些方法在 2023‑2025 年的快速迭代中形成了一个从 多步噪声去噪 → 少步向量场 → 单步直线流 的演进链,为生成式 AI 的高质量、低延迟落地提供了多样化的技术选项。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!