什么是GRPO(Group Relative Policy Optimization)

AI解读 3小时前 硕雀
2 0

GRPOGroup Relative Policy Optimization)概述

GRPO 是一种针对强化学习(RL)特别是大语言模型LLM)对齐阶段设计的策略优化算法。它在 Proximal Policy Optimization(PPO)‍ 的框架上进行改进,核心目标是 在保持训练稳定性的同时显著降低计算和显存开销

1. 背景与动机

  • 传统 PPO 需要同时训练 Actor(策略网络)‍ 与 Critic(价值网络)‍,价值网络的规模往往与策略网络相当,导致显存占用大、训练成本高。
  • 在大语言模型的 RLHFReinforcement Learning with Human Feedback)场景中,每个提示(prompt)自然会产生多个候选答案,这为构建 组内基准 提供了便利。

2. 核心思想

  • 组内比较:对同一个输入,模型一次采样出一组(如 8 条)输出。随后使用奖励模型Reward Model)对每条输出打分,得到一组相对分数。
  • 相对优势估计:将每条输出的奖励减去该组的平均奖励,再除以组内奖励的标准差,得到相对优势。这样就不需要单独的价值网络来估计基线。
  • KL 散度约束:在更新策略时加入对旧策略或参考策略的 KL 散度约束,防止新策略偏离太远,保证训练过程的稳定性。

3. 与 PPO 的区别

项目 PPO GRPO
是否使用价值网络 需要 不需要,使用组内基准代替
基线计算方式 价值网络输出 组内奖励的均值
计算开销 较大(双网络) 较小(仅 Actor)
适用场景 通用 RL 大语言模型的多答案 RLHF 场景

4. 实际优势

  • 显存节省:去掉价值网络后,显存占用可降低约 30%–50%。
  • 训练效率提升:只需一次前向传播即可得到组内奖励,整体训练时间缩短。
  • 更好的人类偏好对齐:利用相对比较信号(哪条答案更好),更贴合人类评估的相对性。
  • 易于集成Hugging Face TRL 库已提供 GRPO 训练器,开发者可以直接在微调流程中使用。

5. 工作流程(文字版)

  1. 准备:加载已有的 Actor(策略模型)和 Reward Model。
  2. 采样:对每个提示,从当前策略采样出一组(如 8 条)候选答案。
  3. 打分:使用 Reward Model 对每条答案进行评分,得到一组奖励。
  4. 计算相对优势:对每条奖励减去组内平均值并除以组内标准差。
  5. 策略更新:在保持 KL 散度约束的前提下,使用相对优势对策略进行梯度上升更新。
  6. 循环:重复上述步骤,直至模型收敛

6. 关键文献与资源链接

  • DeepSeek 官方文档(详细介绍 GRPO 的实现细节)
  • 技术博客《GRPO(群体相对策略优化)》,通俗解释核心思想与优势
  • DigitalOcean 社区教程,展示如何在 Hugging Face TRL 中使用 GRPO
  • Stanford 课程讲义,对比 PPO 与 GRPO 的结构与公式(不含数学符号)
  • ArXiv 论文《Group Relative Policy Optimization》(原始学术来源)
  • GitHub 示例代码(实现细节与实验结果)

7. 适用场景

  • 大语言模型的 RLHF 微调,尤其是需要大量生成式比较的任务(如数学推理、代码生成)。
  • 资源受限的训练环境(显存或算力受限的 GPU/TPU)。
  • 需要快速迭代的研发实验室,想在保持模型质量的同时降低实验成本。

总结:GRPO 通过“组内相对比较”取代传统 PPO 中的价值网络,显著降低了训练资源需求,同时在大语言模型对齐任务中保持甚至提升了生成质量。它已经在多个公开资源中得到实现和验证,成为当前强化学习与大模型微调的热点技术之一。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!