什么是旋转位置编码（RoPE）

旋转位置编码（Rotary Position Embedding，RoPE）概述

旋转位置编码是一种在 Transformer 模型中为序列元素注入位置信息的技术。它通过在 query / key 向量上施加基于正弦/余弦频率的 旋转矩阵，使得注意力计算自然地包含相对位置信息，从而兼具绝对位置编码的简洁和相对位置编码的灵活性。

1. 背景与动机

Transformer 的自注意力机制本身不具备顺序感，需要外部位置信息来区分不同 token 的位置。
传统的 绝对位置编码（如 sinusoidal）只能提供每个位置的固定向量，难以直接表达 相对距离。
相对位置编码 能捕捉 token 之间的距离，但实现往往需要额外的参数或矩阵运算，计算成本较高。
RoPE 通过旋转的方式把绝对位置嵌入转化为相对位置效果，既保持了计算效率，又实现了自然的相对距离建模。

2. 实现要点

步骤	关键操作
1. 生成频率向量 W	`omega = 10000 ** (-2 * (i // 2) / d)`（i 为维度索引）
2. 计算每个位置的 cos 与 sin	`cos = np.cos(omega * pos)`, `sin = np.sin(omega * pos)`
3. 将向量拆分为偶/奇两部分并交叉旋转	`x_even, x_odd = x[..., ::2], x[..., 1::2]` `x_rot = x_even * cos - x_odd * sin` `y_rot = x_even * sin + x_odd * cos`
4. 合并回原维度	`x_rotated = np.stack([x_rot, y_rot], axis=-1).reshape(..., d)`
5. 在注意力计算前对 query/key 进行上述旋转	只需在 `forward` 中对 `Q`、`K` 做一次变换即可

在实际框架（PyTorch、TensorFlow）中，常把cos 与sin预先缓存，以提升推理速度。

3. 与其他位置编码的比较

编码方式	是否显式相对位置	参数量	长序列外推能力	计算开销
Sinusoidal（绝对）	否	0	较差（只能固定长度）	低
Learned absolute	否	位置嵌入矩阵	受限	中
Relative (bias)	是	位置偏置矩阵	中等	中
RoPE	是（通过旋转）‍	0（仅频率）	优秀（可自然外推）	与绝对相当

实验表明，RoPE 在 长文本分类、语言建模 等任务上显著提升了模型的外推性能，尤其在 LLaMA、ChatGLM、RoFormer 等大模型中得到广泛采用。

4. 常见模型与应用

模型	采用方式	备注
RoFormer	将原始 sinusoidal 替换为 RoPE，保持 Transformer 结构不变	首个系统性使用 RoPE 的模型
LLaMA / LLaMA‑2	在自注意力的 Q/K 上加入 RoPE，实现相对位置建模	支持更长上下文窗口
ChatGLM	采用改进的双向旋转实现，提升中文长文本理解	与原始 RoPE 实现略有差异
CoPE、YaRN、Linear‑RoPE	基于 RoPE 的变体，进一步优化高频信息或扩展上下文长度

5. 关键优势与局限

优势

无额外参数：仅使用固定频率，无需学习位置嵌入。
相对位置自然编码：点积直接包含相对距离信息。
长序列外推：旋转角度随位置线性增长，可平滑延伸到未见长度。
计算效率：与传统 sinusoidal 编码相同的时间复杂度，且易于向量化实现。

局限

对 极端长距离（如数万 token）仍会出现频率衰减，需要配合 YaRN、NTK 等扩展技术。
在 稀疏注意力 或 线性注意力 场景下，需要额外的数学变形才能保持等价性（已有研究提出 Linear‑RoPE）。

6. 小结

旋转位置编码（RoPE）通过在 query / key 向量上施加基于正弦频率的旋转变换，实现了 相对位置 的高效、参数‑free 编码。它兼具 实现简洁、计算高效 与 长序列外推 的优势，已成为 大语言模型（如 LLaMA、ChatGLM、RoFormer）默认的位置信息处理方式，并衍生出 Linear‑RoPE、YaRN、CoPE 等多种变体，以进一步提升高频信息捕获和上下文长度扩展能力。对从事 Transformer 结构改进或大模型训练的研究者而言，掌握 RoPE 的数学原理与实现细节是必备技能。