读法:初读时作为导览,了解各章位置和联系;读完全书后再回来,会发现每一行都有了新的分量。
强化学习要解决什么问题
一个智能体(Agent)在环境中反复行动,每步得到一个奖励信号。目标是找到一个策略 $\pi$,使得长期折扣累积奖励的期望最大:
\[\pi^* = \arg\max_\pi \; \mathbb{E}_\pi \!\left[\sum_{t=0}^{\infty} \gamma^t r_t\right]\]| 这个问题的完整数学描述是马尔可夫决策过程(MDP):$\mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)$,其中 $\mathcal{P}(s’ | s,a)$ 是状态转移概率,$\mathcal{R}(s,a,s’)$ 是奖励函数。 |
核心:Bellman 方程
RL 的理论中心是两组 Bellman 方程。几乎所有算法都是在以不同方式近似求解它们。
Bellman 期望方程(评估给定策略 $\pi$):
\[V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} \mathcal{P}(s'|s,a)\bigl[\mathcal{R}(s,a,s') + \gamma V^\pi(s')\bigr]\]Bellman 最优方程(直接寻找最优策略):
\[V^*(s) = \max_a \sum_{s'} \mathcal{P}(s'|s,a)\bigl[\mathcal{R}(s,a,s') + \gamma V^*(s')\bigr]\]两个方程的差别只有一处:期望方程对动作加权平均(按策略 $\pi$),最优方程对动作取最大值。
当前状态价值 = 即时奖励 + γ × 下一状态价值(的期望 / 最大值)
↑ ↑
期望方程 最优方程
各章的位置:从理论到实践
第1章 RL 是什么? 直觉与全局观,RL vs 监督学习
第2章 数学工具箱 概率、期望、梯度——本书用到的数学
第3章 MDP RL 的数学语言:S A P R γ,V Q 函数定义
第4章 动态规划 已知模型时精确求解 Bellman 方程:策略迭代、值迭代
↓
模型未知时,以下方法从采样中近似求解 Bellman 方程
↓
第5章 蒙特卡洛 & TD MC:回合结束后用真实回报更新
TD:每步用"当前估计"自举更新(Bootstrapping)
第6章 Q-Learning & Sarsa 最简单的无模型求解:直接逼近 Q*
第7章 DQN 神经网络近似 Q 函数,突破维度灾难
↓
从"学 Q 函数"转向"直接优化策略"
↓
第8章 策略梯度 Policy Gradient 定理,REINFORCE
第9章 Actor-Critic Actor(策略)+ Critic(Bellman 期望方程)联合训练
第10章 PPO 当前机器人 RL 主力:Clip 限制步长,稳定训练
第11章 算法全景图 Model-Based / Off-Policy / 最大熵 SAC / 离线 RL
↓
走出仿真
↓
第12章 Sim-to-Real 域随机化、系统辨识、Actuator Net——把仿真策略部署到真机
第13章 进阶路径 论文清单与后续学习地图
算法分类一览
| 类别 | 核心思路 | 代表算法 | 本书位置 |
|---|---|---|---|
| 动态规划 | 已知 $\mathcal{P}$,直接迭代求解 Bellman 方程 | 策略迭代、值迭代 | 第4章 |
| 蒙特卡洛 | 用完整轨迹的真实回报 $G_t$ 估计价值 | MC Control | 第5章 |
| 时序差分 | 用单步 Bootstrapping 估计,无需等回合结束 | TD(0)、Sarsa | 第5章 |
| 值函数(无模型) | 直接学 $Q^*$,用 $\varepsilon$-贪心执行策略 | Q-Learning、DQN | 第6–7章 |
| 策略梯度 | 直接对策略参数 $\theta$ 做梯度上升 | REINFORCE、PPO、TRPO | 第8、10章 |
| Actor-Critic | Critic 近似 Bellman,为 Actor 提供基线 | A2C、SAC、TD3、DDPG | 第9、11章 |
| Model-Based | 先学环境模型,再在模型中规划 | Dyna、MBPO、DreamerV3 | 第11章 |
一句话串联全书
\[\underbrace{\text{MDP}}_{\text{第3章}} \xrightarrow{\text{已知模型}} \underbrace{\text{动态规划}}_{\text{第4章}} \xrightarrow{\text{去掉模型}} \underbrace{\text{TD / Q-Learning}}_{\text{第5–6章}} \xrightarrow{\text{加神经网络}} \underbrace{\text{DQN}}_{\text{第7章}} \xrightarrow{\text{换优化目标}} \underbrace{\text{策略梯度 / PPO}}_{\text{第8–10章}} \xrightarrow{\text{上真机}} \underbrace{\text{Sim-to-Real}}_{\text{第12章}}\]每一步演进都有一个明确的动机:当前方法的局限,正好是下一章要解决的问题。