一、Diffusion Model(扩散模型)
扩散模型是一类生成式模型,它通过学习一种“去噪”过程来从随机噪声中逐步恢复出高质量的数据。模型在训练阶段先模拟向数据中加入噪声的正向过程,然后在生成阶段逆转该过程,逐步去除噪声,最终得到逼真的图像、视频或其他模态的样本。
- 核心思路:把复杂的数据分布转化为一系列简单的噪声分布之间的转换,使得模型只需学习如何在每一步去除少量噪声即可完成生成。
- 技术演进:最早的扩散模型在图像合成上已经超过了 GAN,随后出现了 Latent Diffusion(在潜在特征空间进行扩散)和 Stable Diffusion 等高效变体,这些模型在保持生成质量的同时显著降低了计算成本。
- 应用场景:
- 优势:生成质量高、模式覆盖广、训练过程相对稳定,且易于与条件信息(文本、标签、深度图等)结合,实现多模态生成。
二、Flow Matching(流匹配)
流匹配是一种新兴的生成建模框架,它直接学习从一个简单分布(如标准正态)到目标数据分布的连续流动路径。与传统扩散模型的“噪声‑去噪”循环不同,流匹配通过匹配每个时间点的速度场(即流动方向)来训练模型,使得生成过程可以一次性或少步完成。
- 基本概念:在训练时,模型被迫对齐(匹配)从噪声到数据的瞬时流动向量,从而学习一个完整的生成流。该方法不依赖显式的噪声调度,理论上可以实现更快的采样速度。
- 研究进展:
- 优势与挑战:
- 优势:采样步数大幅减少,训练过程更直接;对高维连续数据(图像、点云、音频)都有良好适配性。
- 挑战:需要精确估计速度场,训练时对数值稳定性要求更高,当前仍在不断优化的阶段。
三、Rectified Flow(校正流)
Rectified Flow 是对流匹配的一种改进,旨在通过“校正”技术进一步压缩采样步数并提升生成质量。它在训练阶段对流动路径进行校正,使得在少数几步甚至一步采样时仍能保持高保真度。
- 关键技术:通过对流动的速度场进行校正,使得生成路径更接近最短路径,从而在极少步数下仍能恢复细节丰富的样本。
- 实验成果:
- 在图像生成任务中,Rectified Flow 能在 1‑2 步 内实现与传统扩散模型 50‑100 步 相当的视觉质量,显著提升了推理速度。
- 该方法已被用于 高分辨率图像、视频帧生成 以及 跨模态迁移,展示了在实际应用中的广泛潜力。
- 与其他方法的关系:Rectified Flow 可以视作流匹配的一个特例,专注于通过校正来解决采样效率瓶颈,同时保持与原始流匹配模型相同的理论框架。
三者对比概览
| 维度 | Diffusion Model | Flow Matching | Rectified Flow |
|---|---|---|---|
| 生成路径 | 多步噪声‑去噪链(随机) | 通过随机插值学习 一阶速度场(可直接 ODE) | 直接学习 直线轨迹 的速度场 |
| 训练损失 | 噪声/得分预测 MSE(时间加权) | 速度场回归 MSE(一次采样) | 直线导数回归 MSE(一次采样) |
| 采样步数 | 20‑1000+(需蒸馏/一致性加速) | 5‑15(ODE 求解) | 1‑4(单步或少步 ODE) |
| 计算成本 | 高(噪声链、时间离散) | 中等(仅一次前向) | 低(一次前向 + 简单 ODE) |
| 适用场景 | 高保真图像、视频、科学模拟 | 条件生成、跨域迁移、音频、分子 | 超高速图像/视频生成、跨模态翻译、音频 |
| 最新趋势 | 采样蒸馏、物理约束、Latent Diffusion | 高阶流、切换流、无平衡流 | 大模型扩展、边界约束、递归校正、统一多模态框架 |
小结
- Diffusion Model 仍是生成质量的基准,尤其在高分辨率图像和科学模拟上表现突出,但其多步采样是速度瓶颈。
- Flow Matching 通过一次性学习速度场显著提升训练与推理效率,已在音频、分子、跨域任务中展现竞争力。
- Rectified Flow 进一步把路径“直线化”,实现 单步或极少步采样,并通过递归校正和边界约束等技术不断提升生成质量,正向多模态统一模型迈进。
这些方法在 2023‑2025 年的快速迭代中形成了一个从 多步噪声去噪 → 少步向量场 → 单步直线流 的演进链,为生成式 AI 的高质量、低延迟落地提供了多样化的技术选项。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!