cloudinwind's blog
RL笔记(24):超越单调性 (QTRAN, WQMIX, QPLEX)Blur image

引言(Introduction)#

在上一章中,我们介绍了 QMIX,它通过强制混合网络的权重非负,实现了对 IGM 原则的单调性近似。 然而,单调性是一个充分非必要条件

  • 局限性:QMIX 无法表示非单调的协作任务(例如:智能体 A 和 B 必须同时做动作 X 才能得分,单独做反而扣分。这种“异或”逻辑违反了单调性)。
  • 挑战:我们需要一种方法,既能满足 IGM 原则(保证分布式执行),又能覆盖所有可能的联合价值函数空间。

本章将介绍三种试图突破 QMIX 天花板的进阶算法:QTRAN(基于变换)、WQMIX(基于加权)和 QPLEX(基于优势函数)。


QTRAN: Learning to Factorize with Transformation#

论文QTRAN: Learning to Factorize with Transformation for Cooperative MARL

核心思想:变换与松弛#

QTRAN 认为,直接学习一个满足 IGM 的 QtotQ_{tot} 太难了。 不如我们将 QtotQ_{tot} 拆解为两部分:

  1. QtotQ'_{tot}:一个易于分解的部分(如 VDN 的求和形式),用于指导动作选择。
  2. VtotV_{tot}:一个状态价值修正项,用于补足残差,确保逼近真实的 QQ^*

数学构造#

我们定义变换后的目标函数:

Qtot(s,u)Qtot(s,u)+Vtot(s,u)Q_{tot}(s, \mathbf{u}) \approx Q'_{tot}(s, \mathbf{u}) + V_{tot}(s, \mathbf{u})

其中 Qtot(s,u)=i=1nQi(ui)Q'_{tot}(s, \mathbf{u}) = \sum_{i=1}^n Q_i(u_i) 是我们实际用来选动作的函数。

为了保证 argmaxQtot=argmaxQtot\arg\max Q'_{tot} = \arg\max Q_{tot}(IGM 原则),QTRAN 推导出了一组充分条件:

  1. 最优动作一致性:在最优动作 uˉ\bar{\mathbf{u}} 处,两者相等。 Qtot(uˉ)Qtot(uˉ)+Vtot(uˉ)=0Q'_{tot}(\bar{\mathbf{u}}) - Q_{tot}(\bar{\mathbf{u}}) + V_{tot}(\bar{\mathbf{u}}) = 0
  2. 非最优动作界限:在非最优动作 u\mathbf{u} 处,QtotQ'_{tot} 不会“篡位”。 Qtot(u)Qtot(u)+Vtot(u)0Q'_{tot}(\mathbf{u}) - Q_{tot}(\mathbf{u}) + V_{tot}(\mathbf{u}) \ge 0

损失函数设计#

QTRAN 将上述硬约束转化为软损耗(Soft Constraints)加入训练:

Lopt=(Qtot(uˉ)ytarget)2+λuU,uuˉ(Qtot(u)Qtot(u)+Vtot(u))2L_{opt} = (Q'_{tot}(\bar{\mathbf{u}}) - y_{target})^2 + \lambda \sum_{\mathbf{u} \in \mathcal{U}, \mathbf{u} \ne \bar{\mathbf{u}}} (Q'_{tot}(\mathbf{u}) - Q_{tot}(\mathbf{u}) + V_{tot}(\mathbf{u}))^2

总结#

  • 优点:理论上具有完全的表达能力 (Full Expressiveness)。
  • 缺点:实际训练中,软约束很难被完美满足,且计算量巨大(涉及所有动作空间的求和)。在复杂任务上表现往往不如 QMIX。

Weighted QMIX (WQMIX)#

论文Weighted QMIX: Expanding Monotonic Value Function Factorisation

核心思想:非对称加权#

WQMIX 指出 QMIX 的核心问题是 相对过泛化 (Relative Overgeneralization):为了拟合某些非最优的低分动作,模型被迫拉低了最优动作的 Q 值。

WQMIX 提出:我们其实不在乎非最优动作的 Q 值准不准,我们只在乎最优动作的 Q 值准不准。 因此,我们可以给最优样本赋予极高的权重。

算法架构#

  1. 无限制网络 Q^\hat{Q}^*:使用一个普通的前馈网络(不加绝对值约束)来估计真实的联合 Q 值。这保证了表达能力,但不满足 IGM。
  2. 单调网络 QtotQ_{tot}:使用标准的 QMIX 结构(满足 IGM),用来做策略执行。
  3. 加权投影:通过加权 Loss 强行让 QtotQ_{tot} 去逼近 Q^\hat{Q}^*

损失函数#

L=i=1bw(s,u)(Q^(s,u)Qtot(s,u))2\mathcal{L} = \sum_{i=1}^b w(s, \mathbf{u}) \left( \hat{Q}^*(s, \mathbf{u}) - Q_{tot}(s, \mathbf{u}) \right)^2

权重函数 ww 的设计体现了乐观主义

  • 如果 Q^\hat{Q}^* 认为当前动作很好的(可能是潜在的最优解),给大权重 w=1w=1
  • 如果 Q^\hat{Q}^* 认为当前动作很差,给小权重 w=α1w=\alpha \ll 1

这使得 QtotQ_{tot} 即使受限于单调性,也会优先保证在最优动作附近的形状是正确的,从而突破了结构瓶颈。


QPLEX: Duplex Dueling Multi-Agent Q-Learning#

论文QPLEX: Duplex Dueling Multi-Agent Q-Learning

核心思想:基于优势的 IGM#

QPLEX 是目前的 SOTA 方法之一。它借鉴了 Dueling DQN 的思想,指出 IGM 原则其实只关乎 优势函数 (Advantage),与状态价值 V(s)V(s) 无关。

Qtot(s,u)=Vtot(s)+Atot(s,u)Q_{tot}(s, \mathbf{u}) = V_{tot}(s) + A_{tot}(s, \mathbf{u})

只要保证 AtotA_{tot} 和局部 AiA_i 在“正负号”上的一致性,就能满足 IGM,而不需要限制权重的正负。

数学构造#

QPLEX 构造了如下形式的联合优势函数:

Atot(s,u)=i=1nλi(s,u)Ai(s,ui)A_{tot}(s, \mathbf{u}) = \sum_{i=1}^n \lambda_i(s, \mathbf{u}) A_i(s, u_i)
  • 关键点:只要系数 λi(s,u)>0\lambda_i(s, \mathbf{u}) > 0,那么 AtotA_{tot} 的符号就由 AiA_i 决定。
    • 如果所有 uiu_i 都是局部最优(Ai=0A_i=0),那么 Atot=0A_{tot}=0(全局最优)。
    • 如果有任何一个 uiu_i 不是最优(Ai<0A_i < 0),那么 Atot<0A_{tot} < 0(全局非最优)。

网络架构#

QPLEX 使用 多头注意力机制 (Multi-Head Attention) 来动态生成权重 λi\lambda_i

  • 这不仅保证了 λi>0\lambda_i > 0,还赋予了模型根据当前状态动态调整每个智能体权重的能力。
  • 通过这种严格的数学构造,QPLEX 在理论上实现了完全表达能力,同时保留了 VDN 般高效的计算效率。

总结与对比#

算法核心机制表达能力IGM 保证计算复杂度
QMIX单调性约束 (权重 >0>0)受限 (单调类)严格
QTRAN软约束松弛 + 罚项完全近似 (软约束)极高
WQMIX双网络 + 非对称加权近似完全严格 (投影后)
QPLEX优势分解 + 注意力权重完全严格 (数学构造)

演进脉络: 从 QMIX 的“削足适履”(为了 IGM 牺牲表达能力),到 QPLEX 的“量体裁衣”(通过精巧的数学构造同时实现 IGM 和完全表达能力),值分解算法在 MARL 领域已经发展得相当成熟。

RL笔记(24):超越单调性 (QTRAN, WQMIX, QPLEX)
https://cloudflare.cloudinwind.top/blog/rl-note-24
Author 云之痕
Published at January 2, 2026
Comment seems to stuck. Try to refresh?✨