什么是GRPO（Group Relative Policy Optimization）

AI解读 4个月前硕雀

60 0 0

GRPO（Group Relative Policy Optimization）概述

GRPO 是一种针对强化学习（RL）特别是大语言模型（LLM）对齐阶段设计的策略优化算法。它在 Proximal Policy Optimization（PPO）‍ 的框架上进行改进，核心目标是 在保持训练稳定性的同时显著降低计算和显存开销。

1. 背景与动机

传统 PPO 需要同时训练 Actor（策略网络）‍ 与 Critic（价值网络）‍，价值网络的规模往往与策略网络相当，导致显存占用大、训练成本高。
在大语言模型的 RLHF（Reinforcement Learning with Human Feedback）场景中，每个提示（prompt）自然会产生多个候选答案，这为构建 组内基准 提供了便利。

2. 核心思想

组内比较：对同一个输入，模型一次采样出一组（如 8 条）输出。随后使用奖励模型（Reward Model）对每条输出打分，得到一组相对分数。
相对优势估计：将每条输出的奖励减去该组的平均奖励，再除以组内奖励的标准差，得到相对优势。这样就不需要单独的价值网络来估计基线。
KL 散度约束：在更新策略时加入对旧策略或参考策略的 KL 散度约束，防止新策略偏离太远，保证训练过程的稳定性。

3. 与 PPO 的区别

项目	PPO	GRPO
是否使用价值网络	需要	不需要，使用组内基准代替
基线计算方式	价值网络输出	组内奖励的均值
计算开销	较大（双网络）	较小（仅 Actor）
适用场景	通用 RL	大语言模型的多答案 RLHF 场景

4. 实际优势

显存节省：去掉价值网络后，显存占用可降低约 30%–50%。
训练效率提升：只需一次前向传播即可得到组内奖励，整体训练时间缩短。
更好的人类偏好对齐：利用相对比较信号（哪条答案更好），更贴合人类评估的相对性。
易于集成：Hugging Face TRL 库已提供 GRPO 训练器，开发者可以直接在微调流程中使用。

5. 工作流程（文字版）

准备：加载已有的 Actor（策略模型）和 Reward Model。
采样：对每个提示，从当前策略采样出一组（如 8 条）候选答案。
打分：使用 Reward Model 对每条答案进行评分，得到一组奖励。
计算相对优势：对每条奖励减去组内平均值并除以组内标准差。
策略更新：在保持 KL 散度约束的前提下，使用相对优势对策略进行梯度上升更新。
循环：重复上述步骤，直至模型收敛。

6. 关键文献与资源链接

DeepSeek 官方文档（详细介绍 GRPO 的实现细节）
技术博客《GRPO（群体相对策略优化）》，通俗解释核心思想与优势
DigitalOcean 社区教程，展示如何在 Hugging Face TRL 中使用 GRPO
Stanford 课程讲义，对比 PPO 与 GRPO 的结构与公式（不含数学符号）
ArXiv 论文《Group Relative Policy Optimization》（原始学术来源）
GitHub 示例代码（实现细节与实验结果）

7. 适用场景

大语言模型的 RLHF 微调，尤其是需要大量生成式比较的任务（如数学推理、代码生成）。
资源受限的训练环境（显存或算力受限的 GPU/TPU）。
需要快速迭代的研发实验室，想在保持模型质量的同时降低实验成本。

总结：GRPO 通过“组内相对比较”取代传统 PPO 中的价值网络，显著降低了训练资源需求，同时在大语言模型对齐任务中保持甚至提升了生成质量。它已经在多个公开资源中得到实现和验证，成为当前强化学习与大模型微调的热点技术之一。

GRPO

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！