Difussion Model、Flow Matching 与 Rectified Flow解析

AI解读 3个月前硕雀

161 0 0

扩散模型是一类生成式模型，它通过学习一种“去噪”过程来从随机噪声中逐步恢复出高质量的数据。模型在训练阶段先模拟向数据中加入噪声的正向过程，然后在生成阶段逆转该过程，逐步去除噪声，最终得到逼真的图像、视频或其他模态的样本。

核心思路：把复杂的数据分布转化为一系列简单的噪声分布之间的转换，使得模型只需学习如何在每一步去除少量噪声即可完成生成。
技术演进：最早的扩散模型在图像合成上已经超过了 GAN，随后出现了 Latent Diffusion（在潜在特征空间进行扩散）和 Stable Diffusion 等高效变体，这些模型在保持生成质量的同时显著降低了计算成本。
应用场景：
- 文本到图像（如 DALL·E、Stable Diffusion）
- 文本到视频（如 OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion）
- 结构化数据生成（材料设计、药物分子）
优势：生成质量高、模式覆盖广、训练过程相对稳定，且易于与条件信息（文本、标签、深度图等）结合，实现多模态生成。

二、Flow Matching（流匹配）‍

流匹配是一种新兴的生成建模框架，它直接学习从一个简单分布（如标准正态）到目标数据分布的连续流动路径。与传统扩散模型的“噪声‑去噪”循环不同，流匹配通过匹配每个时间点的速度场（即流动方向）来训练模型，使得生成过程可以一次性或少步完成。

基本概念：在训练时，模型被迫对齐（匹配）从噪声到数据的瞬时流动向量，从而学习一个完整的生成流。该方法不依赖显式的噪声调度，理论上可以实现更快的采样速度。
研究进展：
- Diff2Flow 将流匹配与扩散模型对齐，展示了两者在目标分布学习上的等价性。
- Score Distillation of Flow Matching 进一步提出了利用分数函数对流匹配进行蒸馏的技术，提升了模型的鲁棒性和采样效率。
- 系列综述（如《Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis》）系统比较了流匹配与扩散桥的异同，指出流匹配在理论上更具灵活性，能够更好地适配不同数据结构。
优势与挑战：
- 优势：采样步数大幅减少，训练过程更直接；对高维连续数据（图像、点云、音频）都有良好适配性。
- 挑战：需要精确估计速度场，训练时对数值稳定性要求更高，当前仍在不断优化的阶段。

三、Rectified Flow（校正流）‍

Rectified Flow 是对流匹配的一种改进，旨在通过“校正”技术进一步压缩采样步数并提升生成质量。它在训练阶段对流动路径进行校正，使得在少数几步甚至一步采样时仍能保持高保真度。

关键技术：通过对流动的速度场进行校正，使得生成路径更接近最短路径，从而在极少步数下仍能恢复细节丰富的样本。
实验成果：
- 在图像生成任务中，Rectified Flow 能在 1‑2 步 内实现与传统扩散模型 50‑100 步 相当的视觉质量，显著提升了推理速度。
- 该方法已被用于 高分辨率图像、视频帧生成 以及 跨模态迁移，展示了在实际应用中的广泛潜力。
与其他方法的关系：Rectified Flow 可以视作流匹配的一个特例，专注于通过校正来解决采样效率瓶颈，同时保持与原始流匹配模型相同的理论框架。

维度	Diffusion Model	Flow Matching	Rectified Flow
生成路径	多步噪声‑去噪链（随机）	通过随机插值学习一阶速度场（可直接 ODE）	直接学习直线轨迹的速度场
训练损失	噪声/得分预测 MSE（时间加权）	速度场回归 MSE（一次采样）	直线导数回归 MSE（一次采样）
采样步数	20‑1000+（需蒸馏/一致性加速）	5‑15（ODE 求解）	1‑4（单步或少步 ODE）
计算成本	高（噪声链、时间离散）	中等（仅一次前向）	低（一次前向 + 简单 ODE）
适用场景	高保真图像、视频、科学模拟	条件生成、跨域迁移、音频、分子	超高速图像/视频生成、跨模态翻译、音频
最新趋势	采样蒸馏、物理约束、Latent Diffusion	高阶流、切换流、无平衡流	大模型扩展、边界约束、递归校正、统一多模态框架

Diffusion Model 仍是生成质量的基准，尤其在高分辨率图像和科学模拟上表现突出，但其多步采样是速度瓶颈。
Flow Matching 通过一次性学习速度场显著提升训练与推理效率，已在音频、分子、跨域任务中展现竞争力。
Rectified Flow 进一步把路径“直线化”，实现 单步或极少步采样，并通过递归校正和边界约束等技术不断提升生成质量，正向多模态统一模型迈进。

这些方法在 2023‑2025 年的快速迭代中形成了一个从 多步噪声去噪 → 少步向量场 → 单步直线流 的演进链，为生成式 AI 的高质量、低延迟落地提供了多样化的技术选项。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！