RL笔记（24）：超越单调性 (QTRAN, WQMIX, QPLEX) • cloudinwind's blog

引言（Introduction）#

在上一章中，我们介绍了 QMIX，它通过强制混合网络的权重非负，实现了对 IGM 原则的单调性近似。然而，单调性是一个充分非必要条件。

本章将介绍三种试图突破 QMIX 天花板的进阶算法：QTRAN（基于变换）、WQMIX（基于加权）和 QPLEX（基于优势函数）。

论文：QTRAN: Learning to Factorize with Transformation for Cooperative MARL ↗

QTRAN 认为，直接学习一个满足 IGM 的 $Q_{tot}$ 太难了。不如我们将 $Q_{tot}$ 拆解为两部分：

我们定义变换后的目标函数：

Q_{tot}(s, \mathbf{u}) \approx Q'_{tot}(s, \mathbf{u}) + V_{tot}(s, \mathbf{u})

其中 $Q'_{tot}(s, \mathbf{u}) = \sum_{i=1}^n Q_i(u_i)$ 是我们实际用来选动作的函数。

为了保证 $\arg\max Q'_{tot} = \arg\max Q_{tot}$ （IGM 原则），QTRAN 推导出了一组充分条件：

最优动作一致性：在最优动作 $\bar{\mathbf{u}}$ 处，两者相等。 $Q'_{tot}(\bar{\mathbf{u}}) - Q_{tot}(\bar{\mathbf{u}}) + V_{tot}(\bar{\mathbf{u}}) = 0$
非最优动作界限：在非最优动作 $\mathbf{u}$ 处， $Q'_{tot}$ 不会“篡位”。 $Q'_{tot}(\mathbf{u}) - Q_{tot}(\mathbf{u}) + V_{tot}(\mathbf{u}) \ge 0$

QTRAN 将上述硬约束转化为软损耗（Soft Constraints）加入训练：

L_{opt} = (Q'_{tot}(\bar{\mathbf{u}}) - y_{target})^2 + \lambda \sum_{\mathbf{u} \in \mathcal{U}, \mathbf{u} \ne \bar{\mathbf{u}}} (Q'_{tot}(\mathbf{u}) - Q_{tot}(\mathbf{u}) + V_{tot}(\mathbf{u}))^2

论文：Weighted QMIX: Expanding Monotonic Value Function Factorisation ↗

WQMIX 指出 QMIX 的核心问题是 相对过泛化 (Relative Overgeneralization)：为了拟合某些非最优的低分动作，模型被迫拉低了最优动作的 Q 值。

WQMIX 提出：我们其实不在乎非最优动作的 Q 值准不准，我们只在乎最优动作的 Q 值准不准。 因此，我们可以给最优样本赋予极高的权重。

\mathcal{L} = \sum_{i=1}^b w(s, \mathbf{u}) \left( \hat{Q}^*(s, \mathbf{u}) - Q_{tot}(s, \mathbf{u}) \right)^2

权重函数 $w$ 的设计体现了乐观主义：

这使得 $Q_{tot}$ 即使受限于单调性，也会优先保证在最优动作附近的形状是正确的，从而突破了结构瓶颈。

论文：QPLEX: Duplex Dueling Multi-Agent Q-Learning ↗

QPLEX 是目前的 SOTA 方法之一。它借鉴了 Dueling DQN 的思想，指出 IGM 原则其实只关乎 优势函数 (Advantage)，与状态价值 $V(s)$ 无关。

$Q_{tot}(s, \mathbf{u}) = V_{tot}(s) + A_{tot}(s, \mathbf{u})$

只要保证 $A_{tot}$ 和局部 $A_i$ 在“正负号”上的一致性，就能满足 IGM，而不需要限制权重的正负。

QPLEX 构造了如下形式的联合优势函数：

A_{tot}(s, \mathbf{u}) = \sum_{i=1}^n \lambda_i(s, \mathbf{u}) A_i(s, u_i)

关键点：只要系数 $\lambda_i(s, \mathbf{u}) > 0$ $λ_{i} (s, u) > 0$ ，那么 $A_{tot}$ $A_{t o t}$ 的符号就由 $A_i$ $A_{i}$ 决定。
- 如果所有 $u_i$ 都是局部最优（ $A_i=0$ ），那么 $A_{tot}=0$ （全局最优）。
- 如果有任何一个 $u_i$ 不是最优（ $A_i < 0$ ），那么 $A_{tot} < 0$ （全局非最优）。

QPLEX 使用 多头注意力机制 (Multi-Head Attention) 来动态生成权重 $\lambda_i$ 。

算法	核心机制	表达能力	IGM 保证	计算复杂度
QMIX	单调性约束 (权重 $>0$ )	受限 (单调类)	严格	低
QTRAN	软约束松弛 + 罚项	完全	近似 (软约束)	极高
WQMIX	双网络 + 非对称加权	近似完全	严格 (投影后)	中
QPLEX	优势分解 + 注意力权重	完全	严格 (数学构造)	中

演进脉络：从 QMIX 的“削足适履”（为了 IGM 牺牲表达能力），到 QPLEX 的“量体裁衣”（通过精巧的数学构造同时实现 IGM 和完全表达能力），值分解算法在 MARL 领域已经发展得相当成熟。