什么是组相对注意力引导（GRAG）

在基于 DiT（Diffusion Transformer）‍ 的图像编辑模型中，常用的 Classifier‑Free Guidance（CFG）‍ 通过一个全局的 “引导尺度” 来平衡文本指令与原始图像的影响力。

GRAG 通过 深入分析 DiT 多模态注意力（MM‑Attention）‍，发现注意力层的 Query/Key 嵌入中存在一个 与层数相关的共享偏置向量（bias vector）。

偏置向量 代表模型固有的、与任务无关的“默认编辑行为”。
Delta（Δ）‍ = token 嵌入 − 偏置向量，编码了 具体指令（文本 token）或 原图信息（图像 token）对编辑的贡献。

GRAG 的关键思想是 对不同 token 组的 Δ 进行加权，从而在不改变模型参数的前提下，动态调节“听从指令”和“保持原图”之间的相对重要性。换句话说，它在 注意力内部 实现了 相对注意力的引导，而不是在输出层统一放大或缩小梯度。

定量指标：在多个主流图像编辑基准上，加入 GRAG 后
- CLIP‑T（文本对齐度）‍ 提升约 12%；
- DINO（图像保真度）‍ 提升约 9%。
定性对比：与 CFG 相比，GRAG 在引导尺度逐步增大时能够保持 平滑、连续 的编辑强度，避免了 CFG 在高尺度下出现的“崩溃”现象。
消融实验：对比不同加权策略（仅对 Δ 加权 vs. 直接对嵌入加权），结果显示 Δ‑guidance 在连续性和有效性上表现最佳。

优势	说明
即插即用	只需少量代码即可在任意 DiT‑based 编辑模型上使用，无需重新训练。
细粒度控制	通过 α 参数实现连续、线性的编辑强度调节。
提升质量	同时提升文本对齐度和图像保真度，实验验证显著改进。
低计算开销	仅在注意力层做一次加权，几乎不增加推理时间。

局限

简而言之，GRAG 通过对 Transformer 注意力内部的偏置向量进行相对加权，引入了一个轻量、可调的“组相对引导”机制，使得基于 DiT 的图像编辑能够实现连续、细粒度的强度控制，并在保持高质量输出的同时显著提升了编辑的可控性。