RL笔记（29）：推理模型的崛起 (GRPO & PRM) • cloudinwind's blog

引言（Introduction）#

在上一篇笔记中，我们介绍了经典的 PPO + RLHF 流程。虽然 PPO 非常有效，但在训练超大规模语言模型时，它面临两个挑战：

本章将介绍 GRPO ——一种更轻量、更高效的策略优化算法，以及 PRM ——一种对思维过程进行细粒度监督的奖励机制。

论文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in LLMs ↗ 应用：DeepSeek-V3 / DeepSeek-R1

GRPO 的核心创新在于：彻底丢弃了 Critic 模型，利用组内相对排名来估计优势函数（Advantage）。

在 PPO 中，我们需要 Critic 网络来预测状态价值 $V(s)$ ，从而计算优势 $A = Q - V$ 。而在 GRPO 中，对于每一个提示词（Prompt） $q$ ：

第 $i$ 个回复的优势函数 $A_i$ 计算公式为：

A_i = \frac{r_i - \text{mean}(r_1, r_2, ..., r_G)}{\text{std}(r_1, r_2, ..., r_G)}

💡 直觉理解：这就像是在班级里考试。我们不需要一个绝对的“满分标准”（Critic），只需要看你在班级里的排名。如果你比班级平均分高，我们就增加你这种行为的概率；反之则降低。

L_{GRPO}(\theta) = \frac{1}{G} \sum_{i=1}^G \left[ \min\left( \frac{\pi_\theta(o_i|q)}{\pi_{\text{old}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right) A_i \right) - \beta D_{KL}(\pi_\theta || \pi_{\text{ref}}) \right]

传统的奖励模型被称为 ORM (Outcome Reward Models)：只看结果。 PRM (Process Reward Models) 则是对推理链条中的每一个步骤进行打分。

在复杂的数学推导或编程任务中：

在 RL 过程中，奖励函数不再是标量，而是一个序列： $\mathcal{R} = \{r(S_1), r(S_2), ..., r(S_n)\}$ 这允许 PPO 或 GRPO 进行更密集的奖励信号反馈，显著提升模型处理复杂推理问题的逻辑严密性。

DeepSeek-R1 展示了 GRPO 结合“规则奖励”的惊人效果：

在推理任务中，我们有时不需要神经网络做奖励模型，而是使用硬规则：

DeepSeek 发现，通过这种简单的 GRPO + 规则奖励，模型在训练过程中会出现自我反思（Self-reflection）。

强化学习在大模型时代的进化方向非常明确：