读法:初读时作为导览,了解各章位置和联系;读完全书后再回来,会发现每一行都有了新的分量。


强化学习要解决什么问题

一个智能体(Agent)在环境中反复行动,每步得到一个奖励信号。目标是找到一个策略 $\pi$,使得长期折扣累积奖励的期望最大:

\[\pi^* = \arg\max_\pi \; \mathbb{E}_\pi \!\left[\sum_{t=0}^{\infty} \gamma^t r_t\right]\]
这个问题的完整数学描述是马尔可夫决策过程(MDP):$\mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)$,其中 $\mathcal{P}(s’ s,a)$ 是状态转移概率,$\mathcal{R}(s,a,s’)$ 是奖励函数。

核心:Bellman 方程

RL 的理论中心是两组 Bellman 方程。几乎所有算法都是在以不同方式近似求解它们。

Bellman 期望方程(评估给定策略 $\pi$):

\[V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} \mathcal{P}(s'|s,a)\bigl[\mathcal{R}(s,a,s') + \gamma V^\pi(s')\bigr]\]

Bellman 最优方程(直接寻找最优策略):

\[V^*(s) = \max_a \sum_{s'} \mathcal{P}(s'|s,a)\bigl[\mathcal{R}(s,a,s') + \gamma V^*(s')\bigr]\]

两个方程的差别只有一处:期望方程对动作加权平均(按策略 $\pi$),最优方程对动作取最大值

当前状态价值 = 即时奖励 + γ × 下一状态价值(的期望 / 最大值)
                                         ↑                ↑
                                    期望方程           最优方程

各章的位置:从理论到实践

第1章   RL 是什么?        直觉与全局观,RL vs 监督学习
第2章   数学工具箱          概率、期望、梯度——本书用到的数学
第3章   MDP               RL 的数学语言:S A P R γ,V Q 函数定义
第4章   动态规划           已知模型时精确求解 Bellman 方程:策略迭代、值迭代
        ↓  
        模型未知时,以下方法从采样中近似求解 Bellman 方程
        ↓
第5章   蒙特卡洛 & TD      MC:回合结束后用真实回报更新
                           TD:每步用"当前估计"自举更新(Bootstrapping)
第6章   Q-Learning & Sarsa  最简单的无模型求解:直接逼近 Q*
第7章   DQN                神经网络近似 Q 函数,突破维度灾难
        ↓
        从"学 Q 函数"转向"直接优化策略"
        ↓
第8章   策略梯度           Policy Gradient 定理,REINFORCE
第9章   Actor-Critic       Actor(策略)+ Critic(Bellman 期望方程)联合训练
第10章  PPO               当前机器人 RL 主力:Clip 限制步长,稳定训练
第11章  算法全景图         Model-Based / Off-Policy / 最大熵 SAC / 离线 RL
        ↓
        走出仿真
        ↓
第12章  Sim-to-Real       域随机化、系统辨识、Actuator Net——把仿真策略部署到真机
第13章  进阶路径           论文清单与后续学习地图

算法分类一览

类别 核心思路 代表算法 本书位置
动态规划 已知 $\mathcal{P}$,直接迭代求解 Bellman 方程 策略迭代、值迭代 第4章
蒙特卡洛 用完整轨迹的真实回报 $G_t$ 估计价值 MC Control 第5章
时序差分 用单步 Bootstrapping 估计,无需等回合结束 TD(0)、Sarsa 第5章
值函数(无模型) 直接学 $Q^*$,用 $\varepsilon$-贪心执行策略 Q-Learning、DQN 第6–7章
策略梯度 直接对策略参数 $\theta$ 做梯度上升 REINFORCE、PPO、TRPO 第8、10章
Actor-Critic Critic 近似 Bellman,为 Actor 提供基线 A2C、SAC、TD3、DDPG 第9、11章
Model-Based 先学环境模型,再在模型中规划 Dyna、MBPO、DreamerV3 第11章

一句话串联全书

\[\underbrace{\text{MDP}}_{\text{第3章}} \xrightarrow{\text{已知模型}} \underbrace{\text{动态规划}}_{\text{第4章}} \xrightarrow{\text{去掉模型}} \underbrace{\text{TD / Q-Learning}}_{\text{第5–6章}} \xrightarrow{\text{加神经网络}} \underbrace{\text{DQN}}_{\text{第7章}} \xrightarrow{\text{换优化目标}} \underbrace{\text{策略梯度 / PPO}}_{\text{第8–10章}} \xrightarrow{\text{上真机}} \underbrace{\text{Sim-to-Real}}_{\text{第12章}}\]

每一步演进都有一个明确的动机:当前方法的局限,正好是下一章要解决的问题。


强化学习教程 © 2026 | 基于强化学习的人形机器人行走控制

This site uses Just the Docs, a documentation theme for Jekyll.