

RL笔记(22):初入多智能体强化学习 (MARL)
MARL 的两个极端:详解联合动作学习 (JAL) 与独立学习 (Independent RL)。深度分析“维度灾难”与“环境非平稳性”这对核心矛盾。
views
| comments
引言(Introduction)#
在之前的 19 篇笔记中,我们研究的都是 单智能体强化学习 (Single-Agent RL)。 但在现实世界中,任务往往涉及多个个体。多智能体强化学习 (MARL) 将问题扩展到了随机博弈(Stochastic Games)的领域。
在进入复杂的 SOTA 算法之前,我们必须先理解解决 MARL 问题的两种最朴素、最极端的思路:
- 完全中心化 (JAL):把所有人看作一个人。
- 完全去中心化 (IPPO):把队友看作空气(或环境噪声)。
这两种思路分别对应了 MARL 的两大核心难题:维度灾难 与 非平稳性。
理论模型:随机博弈#
定义为一个元组 :
- :智能体数量。
- :全局状态空间。
- :联合动作空间 (Joint Action Space)。
- 状态转移取决于所有人的动作组合 。
- 即 。
极端一:联合动作学习 (JAL)#
Joint Action Learning (JAL) 代表了 完全中心化 (Fully Centralized) 的思路。
核心思想#
既然环境受所有人的动作 影响,那我们就构建一个拥有上帝视角的 “超级智能体” (Super Agent),它接收全局状态 ,直接输出联合动作 来控制所有单位。
方法#
直接套用标准的 PPO 算法:
- 输入:
- 输出:
- 策略:
理论分析#
- 优势:环境平稳。 对于这个超级智能体来说,外界环境是静止的(Stationary),因为没有“其他人”在干扰它。因此,马尔可夫性质成立,RL 的收敛性理论依然有效。
- 致命缺陷:维度灾难 (Curse of Dimensionality)。
假设每个智能体有 个动作,共有 个智能体。联合动作空间的大小为 。
- 。
- 输出层需要预测近一千万个概率值,这在计算上是不可行的。
极端二:独立学习 (Independent RL / IPPO)#
Independent PPO (IPPO) 代表了 完全去中心化 (Fully Decentralized) 的思路。
核心思想#
“把队友当空气”。 每个智能体 都是一个独立的个体,它只关心自己的观测 和奖励 。它把所有“其他智能体”都视为环境的一部分。
方法#
同时运行 个独立的 PPO 算法(参数可以共享,也可以不共享):
- 对于智能体 :
- 输入:局部观测
- 输出:独立动作
- 策略:
理论分析#
- 优势:线性扩展。 计算复杂度随人数 线性增长。无论有多少人,每个网络只输出 个概率。这完美解决了维度灾难。
- 致命缺陷:非平稳性 (Non-Stationarity)。 从智能体 的视角看,状态转移概率变成了: 注意公式里的 (队友的策略)。在训练过程中,队友也在学习, 一直在变。 这意味着:对于智能体 来说,昨天有用的策略,今天可能就没用了,因为环境(队友)变了。 这破坏了马尔可夫假设,理论上算法无法收敛。
总结与对比#
| 维度 | 联合动作学习 (JAL) | 独立学习 (IPPO) |
|---|---|---|
| 控制方式 | 完全中心化 (Super Agent) | 完全去中心化 (Independent Agents) |
| 动作空间 | 联合动作 | 独立动作 |
| 空间复杂度 | 指数级爆炸 $ | A |
| 环境性质 | 平稳 (Stationary) | 非平稳 (Non-Stationary) |
| 理论保证 | 有收敛保证 | 无收敛保证 |
| 实际表现 | 规模稍大即无法运行 | 尽管没理论保证,但在实践中往往是 Strong Baseline |
这一章的启示#
我们陷入了两难境地:
- 选 JAL,理论稳但算不动。
- 选 IPPO,算得快但理论虚。
这就引出了 MARL 研究的圣杯——CTDE (集中式训练,分布式执行)。 我们需要一种折中的方法:在训练时利用 JAL 的上帝视角来缓解非平稳性,在执行时利用 IPPO 的独立结构来避免维度灾难。
这正是后续 MAPPO 和 QMIX 等算法的核心动机。