-
RL笔记(14):SQL深入解析 Soft Q-Learning (SQL):从最大熵强化学习原理出发,详细推导 Soft Bellman 方程、策略提升定理及收敛性证明,并探讨基于能量模型的策略采样与实现细节。
10 min read -
RL笔记(13):DDPG深度确定性策略梯度:将 DQN 扩展到连续动作空间。详解 DDPG 的软更新与噪声探索,以及 TD3 如何通过双 Q 网络和延迟更新解决过估计问题。
9 min read -
RL笔记(12):PPOOpenAI 的默认算法:详解 PPO 如何通过 Clip 技巧简化 TRPO。涵盖 PPO-Clip 与 PPO-Penalty 两种变体、GAE 优势估计及完整的损失函数设计。圣PPO伟大无需多言!
6 min read -
RL笔记(11):TRPO深度强化学习的里程碑:详解 TRPO 如何通过信任区域约束保证策略更新的单调性。涵盖目标函数推导、二阶泰勒近似、共轭梯度法及 HVP 技巧。
8 min read -
RL笔记(10):Actor-Critic策略梯度与价值函数的完美结合:详解 Actor-Critic 架构。从 Baseline 减小方差的数学证明,到优势函数 (Advantage) 的推导及 A2C 算法流程。
7 min read -
RL笔记(9):REINFORCE从价值到策略:详解策略梯度 (Policy Gradient) 定理的完整数学推导,并介绍最基础的策略梯度算法——REINFORCE。
7 min read -
RL笔记(8):DQN深度强化学习的开山之作。详解 DQN 如何利用神经网络拟合 Q 值,以及两大核心创新:经验回放与目标网络。进阶涵盖 Double DQN 与 Dueling DQN。
7 min read -
RL笔记(7):Dyna-Q从试错到规划:基于模型的强化学习 (Model-Based RL) 入门。详解 Dyna-Q 算法如何利用环境模型生成模拟数据,加速策略学习。
6 min read -
RL笔记(6):时序差分结合了蒙特卡洛与动态规划的精华:详解时序差分 (TD) 学习。涵盖 SARSA、Q-Learning 及其多步扩展,深入对比 On-Policy 与 Off-Policy 的本质区别。
8 min read -
图床配置从模型到经验:如何不依赖状态转移矩阵,仅通过‘玩游戏’来估计价值?详解蒙特卡洛预测与控制、增量更新及 GLIE 性质。
1 min read -
Astro-Pure Blog 多平台部署(2) - cloudflare pages如何将 Astro-Pure 主题部署到 Cloudflare Pages 平台?
1 min read -
Astro-Pure Blog 多平台部署(2) - github page如何将 astro-pure 主题部署到 github.io? 需要注意细节
3 min read -
Astro-Pure Blog 多平台部署(1)-Vercel将 astro 部署到 verel、 cloudflare pages
2 min read -
Astro-Pure Blog 部署如何将 astro-pure 主题部署到 github.io?
2 min read
Page 2 - Showing 14 of 29 posts
View all posts by years →