

RL笔记(27):MARL 最后的波纹 (MAT & HASAC)
多智能体领域的 SOTA 之作:详解 Multi-Agent Transformer (MAT) 如何将博弈转化为序列建模,以及 HASAC 如何结合异构理论与 SAC 的样本效率。
引言(Introduction)#
在之前的笔记中,我们看到了 MARL 的发展脉络:
- MAPPO:On-Policy,稳定但样本效率低。
- HAPPO:引入序列更新,解决了异构和单调性问题,但仍是 On-Policy。
- Decision Transformer:将单智能体 RL 变成了序列预测。
本章将介绍两个集大成者:
- MAT (Multi-Agent Transformer):将 “Transformer” 和 “序列决策” 引入 MARL,把多智能体博弈变成了一个自回归(Auto-Regressive)的序列生成问题。
- HASAC (Heterogeneous-Agent SAC):将 HAPPO 的 “序列更新理论” 应用于 SAC,打造出兼具理论保证和极高样本效率的 Off-Policy 算法。
Multi-Agent Transformer (MAT)#
论文:Multi-Agent Reinforcement Learning is a Sequence Modeling Problem ↗ (NeurIPS 2022)
核心思想:把“并发”变成“串行”#
传统 MARL(如 QMIX, MAPPO)假设所有智能体在同一时刻同时采取行动,联合动作分布为 (假设独立)。
MAT 提出了一种颠覆性的视角:联合策略可以分解为序列预测。 利用概率链式法则,联合动作的概率可以写成:
这意味着:Agent 1 先动;Agent 2 看到 Agent 1 的动作后再动;Agent 3 看到 1 和 2 的动作后再动…… 这与 Transformer 的自回归生成(预测下一个单词)完全一致!
架构设计:Encoder-Decoder#
MAT 使用了标准的 Transformer 架构:
-
Encoder(处理观测):
- 输入:所有智能体的局部观测序列 。
- 作用:利用 Self-Attention 提取智能体之间的交互特征,生成联合状态表征。
-
Decoder(生成动作):
- 输入:Encoder 的输出 + 之前的智能体动作序列 。
- 输出:当前智能体 的动作概率分布 。
- 机制:类似于 GPT,通过 Masked Attention 确保智能体 只能看到它之前的队友动作,看不到未来的。
训练目标#
MAT 使用 PPO 的目标函数进行端到端训练。
- 优势:这种序列化建模天然地解决了非平稳性问题。对于 Agent 来说,它做决策时,队友 的动作已经是已知的(Fixed),环境不再是“薛定谔”的。
- 性能:MAT 在 SMAC 等基准测试中展现了惊人的性能,尤其是在需要复杂协调的任务中,且具有极强的 Zero-Shot 泛化能力。
Heterogeneous-Agent SAC (HASAC)#
论文:Trust Region Policy Optimization in Multi-Agent Reinforcement Learning ↗ (ICLR 2022) 注:HASAC 是该论文提出的 HARL (Heterogeneous-Agent RL) 框架下的 Off-Policy 变体。
核心动机:效率至上#
HAPPO 虽然理论完美(保证单调提升),但它是 On-Policy 的,数据利用率低,训练慢。 SAC 是单智能体中样本效率最高的 Off-Policy 算法。 HASAC = HAPPO 的序列更新理论 + SAC 的最大熵 Off-Policy 机制。
算法原理#
HASAC 继承了 HAPPO 的 多智能体优势分解引理:
训练流程#
- 随机排列:每一轮训练,随机打乱智能体更新顺序(例如 )。
- 序列更新:
- 对于智能体 ,它的 Critic 需要评估的是:在队友 已经更新了新策略,而队友 还在用旧策略的情况下的价值。
- 目标函数结合了 SAC 的熵正则化:
- 关键点:在计算 值时,输入的动作向量 是混合的:
- 来自当前最新的策略。
- 是当前正在优化的。
- 来自旧策略(Replay Buffer 中的动作或旧策略采样)。
优缺点#
- 优点:
- 极高的样本效率:Off-Policy 机制让它可以利用历史数据。
- 异构友好:不需要参数共享,适合不同类型的智能体协作。
- 收敛保证:继承了 HARL 的单调性证明。
- 缺点:计算复杂度较高,因为需要串行更新每个智能体,且 Critic 需要处理混合动作输入。
深度对比:四大天王#
至此,我们已经集齐了 MARL 领域的四大顶级算法。
| 维度 | MAPPO | HAPPO | MAT | HASAC |
|---|---|---|---|---|
| 核心机制 | PPO + CTDE | 序列更新 + PPO | Transformer + 自回归 | 序列更新 + SAC |
| 策略类型 | On-Policy | On-Policy | On-Policy | Off-Policy |
| 决策方式 | 独立 (同步) | 独立 (执行时) | 序列 (串行执行) | 独立 (执行时) |
| 同构/异构 | 强依赖同构 (参数共享) | 异构友好 | 同构/异构皆可 | 异构友好 |
| 样本效率 | 低 | 低 | 中 | 高 |
| 适用场景 | 大规模同质集群 | 复杂异构协作 | 极复杂序列决策 | 需要快速收敛的任务 |
总结#
- 如果你追求极致的性能和对复杂策略的建模能力,MAT 是首选,它代表了 RL 与 LLM 结合的趋势。
- 如果你追求训练速度和样本利用率,或者你的智能体是异构的(比如一个无人机配合一个机械臂),HASAC 是目前的最强选择。