RL笔记（28）：大语言模型与强化学习 (LLM + RLHF) • cloudinwind's blog

引言（Introduction）#

在之前的笔记中，我们一直在研究如何让智能体在物理环境或博弈环境（如 Atari, MuJoCo, SMAC）中拿高分。而现在，我们要处理的对象是 大语言模型 (LLM)。

大模型的训练通常分为三个阶段：

为什么要用 RL 而不是 SFT？

难以写出标准答案：对于“写一首诗”这种开放性问题，不存在唯一的正解（Label）。人类可以很容易判断谁写得更好，但很难写出完美的示范。
分布偏移问题：SFT 属于行为克隆（BC），如果模型在生成时产生了一个没见过的词，误差会迅速累积。RL 则让模型在“试错”中学会从各种回复中找到最优路径。

要用强化学习训练 LLM，我们首先需要将文本生成过程对应到 MDP 五元组中：

RLHF (Reinforcement Learning from Human Feedback) 通常包含以下经典流程：

在预训练模型的基础上，使用人类编写的高质量 (Prompt, Answer) 数据集进行微调。此时模型学会了基本的指令遵循能力。

给同一个 Prompt，让 SFT 后的模型生成多个不同的回复 $\{y^1, y^2, y^3, y^4\}$ 。
让人类对这些回复进行排序（例如 $y^2 > y^1 > y^4 > y^3$ ）。
训练一个标量奖励模型 $r_\theta(x, y)$ ，使其输出的分数符合人类的排序规律。损失函数通常采用 Pairwise Ranking Loss： $L(\theta) = - \mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right]$ 其中 $y_w$ 是胜出的回复， $y_l$ 是失败的回复。

利用奖励模型给出的分数，通过 PPO 算法调整 LLM 的参数。

在对齐阶段，我们的目标是最大化奖励模型的分数。但如果只考虑奖励，模型可能会学会“钻空子”（Reward Hacking），生成一些人类看不懂但奖励模型给高分的乱码。

因此，我们需要约束模型，使其不要偏离原始模型太远。目标函数定义为：

J(\phi) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\phi(y|x)} \left[ r_\theta(x, y) - \beta \log \left( \frac{\pi_\phi(y|x)}{\pi_{\text{ref}}(y|x)} \right) \right]

$r_\theta(x, y)$ ：奖励模型对生成的完整句子 $y$ 给出的预测分数。
$\log \left( \frac{\pi_\phi(y|x)}{\pi_{\text{ref}}(y|x)} \right)$ ：这是新策略 $\pi_\phi$ 与参考模型（通常是 SFT 后的模型） $\pi_{\text{ref}}$ 之间的 KL 散度（准确说是 KL 惩罚项）。
$\beta$ ：KL 惩罚系数。 $\beta$ 越大，模型越保守，越像原始模型。

💡 直觉理解：这一项的作用是：“你可以尽量讨好人类，但不能忘了怎么说话。”

在这一阶段，显存中通常需要同时加载四个模型（通常采用参数共享或层冻结来优化）：

采样 (Rollout)：输入 Prompt $x$ ，Actor 生成回复 $y$ 。
评分 (Evaluation)：Reward Model 对 $(x, y)$ 打分。
计算优势 (Advantage)：利用序列中的每一个 Token 的 TD Error 来计算优势 $\hat{A}$ 。注意：在 LLM 中，奖励通常是在最后一个 Token 给出的，而前面的 Token 奖励为 0（除了 KL 惩罚）。
更新 (Update)：利用 PPO 的 Clip 损失函数更新 Actor，利用 MSE 损失更新 Critic。

论文：Direct Preference Optimization: Your Language Model is Secretly a Reward Model ↗

PPO 虽然经典，但非常复杂（需要 4 个模型，显存开销巨大，训练极不稳定）。 2023 年提出的 DPO 彻底简化了这个过程。

DPO 的核心发现：我们可以通过数学变换，直接将奖励函数 $r$ 表达为最优策略 $\pi^*$ 的函数。这意味着我们不需要训练奖励模型，也不需要强化学习，直接在偏好数据 $(y_w, y_l)$ 上进行监督式学习即可。

DPO 损失函数：

L_{DPO}(\pi_\phi; \pi_{\text{ref}}) = - \mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_\phi(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\phi(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]

LLM + RL 的结合标志着强化学习从“解决玩具问题”走向了“赋能通用人工智能”。