-
RL笔记(29):推理模型的崛起 (GRPO & PRM)大模型训练的新范式:详解 DeepSeek 提出的 GRPO 如何彻底省去 Critic 网络,以及 PRM 如何通过过程监督让模型学会正确推理。
7 min read -
RL笔记(28):大语言模型与强化学习 (LLM + RLHF)大模型的最后一块拼图:详解基于人类反馈的强化学习 (RLHF)。涵盖从 SFT 到奖励模型,以及利用 PPO 算法进行策略对齐的完整流程。
8 min read -
RL笔记(27):MARL 最后的波纹 (MAT & HASAC)多智能体领域的 SOTA 之作:详解 Multi-Agent Transformer (MAT) 如何将博弈转化为序列建模,以及 HASAC 如何结合异构理论与 SAC 的样本效率。
7 min read -
RL笔记(26):异构智能体信任区域优化 (HAPPO & HATRPO)从经验主义回归理论严谨性:详解 HAPPO 如何解决 MARL 中的单调提升难题。涵盖多智能体优势分解引理、序列更新机制以及与 MAPPO 的本质区别。
7 min read -
RL笔记(25):多智能体策略梯度 (MADDPG & MAPPO)从连续控制到离散博弈:详解 CTDE 架构在 Actor-Critic 中的应用。涵盖 MADDPG 的多面手 Critic 设计与 MAPPO 的工程化胜利。
7 min read -
RL笔记(24):超越单调性 (QTRAN, WQMIX, QPLEX)打破 QMIX 的枷锁:详解 QTRAN、Weighted QMIX 和 QPLEX 如何突破单调性约束。涵盖软约束松弛、非对称加权投影及对偶对决架构的完全表达能力证明。
7 min read -
RL笔记(23):多智能体值分解 (VDN & QMIX)如何在不牺牲独立决策能力的前提下,实现复杂的协作?详解多智能体强化学习中的值分解流派。涵盖 IGM 原则、VDN 的线性分解与 QMIX 的单调性约束设计。
7 min read -
RL笔记(22):初入多智能体强化学习 (MARL)MARL 的两个极端:详解联合动作学习 (JAL) 与独立学习 (Independent RL)。深度分析“维度灾难”与“环境非平稳性”这对核心矛盾。
6 min read -
RL笔记(21):目标导向的强化学习 (Goal-Conditioned RL)从解决单一任务到解决一类任务:详解目标导向 RL 的数学形式化。涵盖通用价值函数近似 (UVFA) 理论,以及解决稀疏奖励难题的核心技术——事后经验回放 (HER)。
9 min read -
RL笔记(20):Decision Transformer范式转移:当强化学习遇上 Transformer。详解 Decision Transformer 如何抛弃贝尔曼方程,利用 Return-to-Go 将 RL 重构为条件序列建模问题。
7 min read -
RL笔记(19):离线强化学习 (Offline RL)数据驱动的强化学习:当不能与环境交互时,如何从静态数据集中学习?深度解析分布偏移 (Distribution Shift) 问题,以及 BCQ 和 CQL 算法的理论推导。
8 min read -
RL笔记(18):基于模型的策略优化 (MBPO)Model-Based RL 的集大成者:深度解析 MBPO 的理论边界。从单调性保证到分支推演 (Branched Rollout),论证如何通过控制推演步长来解决模型偏差带来的二次误差累积问题。
9 min read -
RL笔记(17):模型预测控制 (MPC)在已知环境模型的情况下,如何高效规划?详解模型预测控制 (MPC) 的原理:预测未来、滚动优化与MPC-SAC。
7 min read -
RL笔记(16):模仿学习 (Imitation Learning)没有奖励函数怎么办?详解模仿学习的三大流派:行为克隆 (BC) 的简单粗暴与局限、逆强化学习 (IRL) 的理论推导,以及生成式对抗模仿学习 (GAIL) 的对抗博弈思想。
8 min read -
RL笔记(15):SAC深入解析 Soft Actor-Critic (SAC):从最大熵原理出发,详细推导 Soft 策略迭代与收敛性证明,并解析重参数化技巧与自动熵调节等关键实现细节。
11 min read
Page 1 - Showing 15 of 29 posts
View all posts by years →