

RL笔记(25):多智能体策略梯度 (MADDPG & MAPPO)
从连续控制到离散博弈:详解 CTDE 架构在 Actor-Critic 中的应用。涵盖 MADDPG 的多面手 Critic 设计与 MAPPO 的工程化胜利。
引言:Actor-Critic 的群体进化#
我们在之前的笔记中学习了 CTDE (中心化训练,分布式执行) 的思想。在 Value-Based 方法(如 QMIX)中,CTDE 体现在将 分解为 。
而在 Actor-Critic 架构中,CTDE 的实现更加直观且灵活:
- Actor (策略):必须是局部的 (),因为执行时只能靠自己。
- Critic (价值):必须是全局的 ( 或 ),因为训练时我们可以利用上帝视角来更准地评估局势,从而指导 Actor。
本章将介绍这一范式下的两个里程碑算法:针对连续动作的 MADDPG 和目前最强的 Baseline MAPPO。
MADDPG (Multi-Agent DDPG)#
论文:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments ↗
MADDPG 是 DDPG 算法在多智能体环境下的自然延伸,由 OpenAI 在 2017 年提出。它主要解决了非平稳性问题。
核心思想:Critic 知道一切#
在独立学习(Independent DDPG)中,Critic 只输入 。当队友 的策略 改变时,环境对 来说就变了,导致 Critic 震荡。
MADDPG 提出:Critic 应该输入所有人的动作。 只要输入了联合动作 ,环境的状态转移 就是由物理规律决定的,是平稳 (Stationary) 的。
架构设计#
对于 个智能体,每个智能体 维护两个网络:
- Actor :
- 输入:仅局部观测 。
- 输出:确定性动作 。
- 特点:执行时完全独立。
- Critic :
- 输入:全局状态 (或所有人的观测) + 所有人的动作。
- 输出:标量 Q 值。
- 特点:仅在训练时使用。
训练流程#
- Critic 更新:最小化贝尔曼误差。 注意:计算目标值时,需要用到每个智能体的 Target Actor 来预测下一步动作。
- Actor 更新:确定性策略梯度。 注意:Critic 对 求导,告诉 Actor 如何调整动作能提高集体(或个人)收益。
优缺点#
- 优点:可以处理连续动作;适用于合作、竞争或混合任务(每个 Critic 可以最大化不同的奖励 )。
- 缺点:Critic 的输入维度随人数线性增长,难以扩展到大规模集群。
MAPPO (Multi-Agent PPO)#
论文:The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games ↗
长期以来,人们认为 Off-Policy(如 MADDPG/QMIX)在 MARL 中更高效。但 MAPPO (2021) 证明:只要调参得当,简单的 On-Policy PPO 也能吊打复杂的 Off-Policy 算法。
核心思想:Centralized Value Function#
MAPPO 的结构极其简单,就是 PPO + CTDE。 它与 IPPO(独立 PPO)唯一的区别在于 Critic。
- IPPO Critic: —— 只看自己,不仅视野窄,而且受队友策略变化干扰严重。
- MAPPO Critic: —— 看全局。Critic 学习的是全局状态价值函数。
为什么 比 好?#
MADDPG 使用 ,这需要输入巨大的联合动作空间。 MAPPO 使用 来计算优势函数: 。 不需要输入动作,维度低,训练更容易收敛。
成功的关键:工程技巧 (Implementation Matters)#
MAPPO 的成功不仅仅在于算法,更在于 5 个关键的工程实践:
- 输入特征处理:将 Agent ID 作为 One-hot 向量拼接到状态中(在参数共享时区分不同个体)。
- 参数共享 (Parameter Sharing):所有智能体共用一个 Actor 和一个 Critic 网络(适用于同质智能体),极大加速收敛。
- PopArt:对 Critic 的目标值(Value Target)进行归一化,处理奖励尺度差异大的问题。
- 数据并行:使用多个并行环境收集数据。
- 裁剪 (Clipping):PPO 本身的 Clip 机制有效防止了非平稳环境下的策略崩塌。
深度对比:MADDPG vs. MAPPO#
| 维度 | MADDPG | MAPPO |
|---|---|---|
| 基础算法 | DDPG (Off-Policy) | PPO (On-Policy) |
| 策略类型 | 确定性 () | 随机性 ($\pi(a |
| 动作空间 | 连续 (擅长) | 连续 & 离散 (都擅长) |
| Critic 形式 | ||
| 通信需求 | 训练时需知晓他人动作 | 训练时需知晓全局状态 |
| 样本效率 | 较高 (Replay Buffer) | 较低 (需大量采样) |
| 稳定性 | 较差 (超参数敏感) | 极高 (鲁棒性强) |
| SOTA 表现 | 早期基准 | 目前 SMAC 等环境的主流强基准 |
总结#
多智能体策略方法的发展经历了从“各自为战”到“全局协同”的过程。
- MADDPG 解决了连续动作下的多智能体博弈问题,通过将“队友的动作”显式输入 Critic,在数学上恢复了平稳性。
- MAPPO 则展示了“大道至简”的力量,证明了通过引入全局价值函数 并配合优秀的工程实现,On-Policy 算法也能在复杂的协作任务中达到 SOTA 水平。
至此,我们已经涵盖了 MARL 的两大主流流派:
- Value-Based: QMIX, QPLEX (适合离散动作,强显式协作)。
- Policy-Based: MADDPG, MAPPO (适合连续动作,通用性强)。