cloudinwind's blog
RL笔记(27):MARL 最后的波纹 (MAT & HASAC)Blur image

引言(Introduction)#

在之前的笔记中,我们看到了 MARL 的发展脉络:

  • MAPPO:On-Policy,稳定但样本效率低。
  • HAPPO:引入序列更新,解决了异构和单调性问题,但仍是 On-Policy。
  • Decision Transformer:将单智能体 RL 变成了序列预测。

本章将介绍两个集大成者:

  1. MAT (Multi-Agent Transformer):将 “Transformer” 和 “序列决策” 引入 MARL,把多智能体博弈变成了一个自回归(Auto-Regressive)的序列生成问题。
  2. HASAC (Heterogeneous-Agent SAC):将 HAPPO 的 “序列更新理论” 应用于 SAC,打造出兼具理论保证和极高样本效率的 Off-Policy 算法。

Multi-Agent Transformer (MAT)#

论文Multi-Agent Reinforcement Learning is a Sequence Modeling Problem (NeurIPS 2022)

核心思想:把“并发”变成“串行”#

传统 MARL(如 QMIX, MAPPO)假设所有智能体在同一时刻同时采取行动,联合动作分布为 π(as)=π(ais)\pi(\mathbf{a}|s) = \prod \pi(a^i|s)(假设独立)。

MAT 提出了一种颠覆性的视角:联合策略可以分解为序列预测。 利用概率链式法则,联合动作的概率可以写成:

π(as)=i=1nπ(ais,a1,a2,...,ai1)\pi(\mathbf{a}|s) = \prod_{i=1}^n \pi(a^i | s, a^1, a^2, ..., a^{i-1})

这意味着:Agent 1 先动;Agent 2 看到 Agent 1 的动作后再动;Agent 3 看到 1 和 2 的动作后再动…… 这与 Transformer 的自回归生成(预测下一个单词)完全一致!

架构设计:Encoder-Decoder#

MAT 使用了标准的 Transformer 架构:

  1. Encoder(处理观测)

    • 输入:所有智能体的局部观测序列 (o1,o2,...,on)(o^1, o^2, ..., o^n)
    • 作用:利用 Self-Attention 提取智能体之间的交互特征,生成联合状态表征。
  2. Decoder(生成动作)

    • 输入:Encoder 的输出 + 之前的智能体动作序列 (a1,...,ai1)(a^1, ..., a^{i-1})
    • 输出:当前智能体 ii 的动作概率分布 π(ai)\pi(a^i | \dots)
    • 机制:类似于 GPT,通过 Masked Attention 确保智能体 ii 只能看到它之前的队友动作,看不到未来的。

训练目标#

MAT 使用 PPO 的目标函数进行端到端训练。

L(θ)=min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)L(\theta) = \min(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)
  • 优势:这种序列化建模天然地解决了非平稳性问题。对于 Agent ii 来说,它做决策时,队友 1i11 \sim i-1 的动作已经是已知的(Fixed),环境不再是“薛定谔”的。
  • 性能:MAT 在 SMAC 等基准测试中展现了惊人的性能,尤其是在需要复杂协调的任务中,且具有极强的 Zero-Shot 泛化能力。

Heterogeneous-Agent SAC (HASAC)#

论文Trust Region Policy Optimization in Multi-Agent Reinforcement Learning (ICLR 2022) 注:HASAC 是该论文提出的 HARL (Heterogeneous-Agent RL) 框架下的 Off-Policy 变体。

核心动机:效率至上#

HAPPO 虽然理论完美(保证单调提升),但它是 On-Policy 的,数据利用率低,训练慢。 SAC 是单智能体中样本效率最高的 Off-Policy 算法。 HASAC = HAPPO 的序列更新理论 + SAC 的最大熵 Off-Policy 机制。

算法原理#

HASAC 继承了 HAPPO 的 多智能体优势分解引理

Aπjoint(s,a)=i=1nAπi(s,ai,a1,...,ai1)A_{\boldsymbol{\pi}}^{\text{joint}}(s, \mathbf{a}) = \sum_{i=1}^n A_{\pi}^{i}(s, a^i, a^1, ..., a^{i-1})

训练流程#

  1. 随机排列:每一轮训练,随机打乱智能体更新顺序(例如 12n1 \to 2 \to \dots \to n)。
  2. 序列更新
    • 对于智能体 ii,它的 Critic QiQ_i 需要评估的是:在队友 1i11 \sim i-1 已经更新了新策略,而队友 i+1ni+1 \sim n 还在用旧策略的情况下的价值。
    • 目标函数结合了 SAC 的熵正则化: J(πi)=ED[Qπold(s,a1,...,ai,...,an)αlogπi(ais)]J(\pi^i) = \mathbb{E}_{\mathcal{D}} \left[ Q^{\pi_{\text{old}}}(s, a^1, ..., a^i, ..., a^n) - \alpha \log \pi^i(a^i|s) \right]
    • 关键点:在计算 QQ 值时,输入的动作向量 a\mathbf{a} 是混合的:
      • a1:i1a^{1:i-1} 来自当前最新的策略。
      • aia^{i} 是当前正在优化的。
      • ai+1:na^{i+1:n} 来自策略(Replay Buffer 中的动作或旧策略采样)。

优缺点#

  • 优点
    • 极高的样本效率:Off-Policy 机制让它可以利用历史数据。
    • 异构友好:不需要参数共享,适合不同类型的智能体协作。
    • 收敛保证:继承了 HARL 的单调性证明。
  • 缺点:计算复杂度较高,因为需要串行更新每个智能体,且 Critic 需要处理混合动作输入。

深度对比:四大天王#

至此,我们已经集齐了 MARL 领域的四大顶级算法。

维度MAPPOHAPPOMATHASAC
核心机制PPO + CTDE序列更新 + PPOTransformer + 自回归序列更新 + SAC
策略类型On-PolicyOn-PolicyOn-PolicyOff-Policy
决策方式独立 (同步)独立 (执行时)序列 (串行执行)独立 (执行时)
同构/异构强依赖同构 (参数共享)异构友好同构/异构皆可异构友好
样本效率
适用场景大规模同质集群复杂异构协作极复杂序列决策需要快速收敛的任务

总结#

  • 如果你追求极致的性能和对复杂策略的建模能力,MAT 是首选,它代表了 RL 与 LLM 结合的趋势。
  • 如果你追求训练速度样本利用率,或者你的智能体是异构的(比如一个无人机配合一个机械臂),HASAC 是目前的最强选择。
RL笔记(27):MARL 最后的波纹 (MAT & HASAC)
https://cloudflare.cloudinwind.top/blog/rl-note-27
Author 云之痕
Published at January 5, 2026
Comment seems to stuck. Try to refresh?✨