RL笔记（17）：模型预测控制 (MPC) • cloudinwind's blog

引言（Introduction）#

在之前的笔记中，我们探讨了无模型 (Model-Free) 算法（如 Q-Learning, PPO, SAC）如何通过试错学习。我们也初步接触了基于模型 (Model-Based) 的 Dyna-Q，它通过学习环境模型来生成模拟数据辅助学习。

今天我们深入 Model-Based RL 的另一个重要分支：模型预测控制 (Model Predictive Control, MPC)。 MPC 的核心优势在于，它直接利用环境模型进行前向规划，像一个经验丰富的棋手一样“预判”未来，然后根据预测结果做出当前最优的决策。

MPC 不仅仅是生成模拟数据（像 Dyna-Q），它是在每一个状态下，都重新规划一次未来的动作序列。

MPC 是一种控制策略，它假设我们拥有一个精确的环境模型 $M(s,a) \to (r, s')$ 。

在当前状态 $s_t$ ，MPC 并不直接选择一个动作。而是：

预测未来：假设从当前状态 $s_t$ 开始，执行一系列动作 $\pi = \{a_t, a_{t+1}, \dots, a_{t+H}\}$ （称为预测时域 (Prediction Horizon) $H$ ）。
模拟轨迹：利用模型 $M$ ，模拟出这一系列动作可能产生的轨迹及其累积奖励。
优化规划：找到能最大化累积奖励的动作序列 $\pi^*$ 。

MPC 的决策过程是滚动的：

💡 直觉： MPC 就像一个有预见性的决策者。它不会一次性把所有步骤都定死，而是每走一步，都根据当前情况重新规划下一步的最佳路径。这使得它能很好地应对环境变化。

MPC 本身是一种控制方法，如何与 RL 结合呢？

在 Model-Based RL 中，我们首先需要学习一个环境模型 $M_\theta$ 。

监督学习：用收集到的真实数据 $(s, a, r, s')$ $(s, a, r, s^{'})$ 来训练模型。
- 预测奖励： $r \approx R_\phi(s,a)$
- 预测状态： $s' \approx M_\theta(s,a)$
模型类型：可以是概率模型（如 PETS 使用的概率 GP 回归）来估计模型的不确定性，也可以是确定性模型（如简单的神经网络）。

一旦有了模型 $M_\theta$ ，就可以进行规划：

在当前状态 $s_t$ ，MPC 在所有可能的 $H$ 步动作序列中搜索，找到能最大化模拟累积奖励的序列 $\pi^* = \{a_t^*, a_{t+1}^*, \dots, a_{t+H}^*\}$ 。
执行 $a_t^*$ 。

MPC 产生的动作序列 $\pi^*$ 本身就可以看作是当前状态下的一个“策略”。我们可以用标准的 RL 算法（如 PPO, SAC）来优化生成这个 $\pi^*$ 的参数。

例如，MPC-SAC 的做法：

训练一个模型 $M_\theta$ 。
训练 Actor-Critic：
- Critic 学习 $Q$ 值。
- Actor 学习策略 $\pi_\phi$ 。
- 在 Actor 的更新时，使用 MPC 规划 $H$ 步，获得更准确的奖励信号来更新 Actor。

PETS 是一个经典的 Model-Based RL 算法，它使用了概率模型来处理模型不确定性。

PETS 使用高斯过程 (Gaussian Process, GP) 或其他概率模型来学习奖励函数 $R_\phi$ 和状态转移函数 $M_\theta$ 。

在 MPC 规划时，PETS 会从学到的概率模型中采样多条可能的未来轨迹。

PETS 也会用学习到的模型和规划结果来训练一个 Actor-Critic 策略。

MPC 提供了一种强大的在已知模型下进行序列决策的方法。它通过向前看（预测）和滚动优化，能够做出比直接 RL 更明智的决策。将 MPC 与 RL 结合，是 Model-Based RL 的重要研究方向，其目标是学好模型，并用好模型，从而以最高的样本效率解决复杂任务。

我们之前的笔记主要聚焦于 Model-Free 方法（Q-Learning, REINFORCE, PPO, SAC）。Model-Based 方法（Dyna-Q, MPC）提供了另一种思路，它们往往在样本效率上具有优势，但在模型精度要求上较高。