课程总目录 | 强化学习教程：从入门到精通

适合读者：有传统 SLAM / 定位建图经验、略懂深度学习的工程师或研究者。
你已经熟悉概率图、贝叶斯滤波、梯度下降——这些都是理解强化学习的绝佳跳板。

课程目标

读完本教程，你将能够：

清楚解释强化学习的核心思想，以及它与监督学习的本质区别
推导 Bellman 方程、策略梯度定理等核心公式
理解从 Q-Learning → DQN → PPO 的演进脉络
对”用 RL 训练人形机器人行走”这类工程任务有清晰的方法论认知
具备独立阅读顶级 RL 论文的基础能力

章节目录

第一章：什么是强化学习——直觉与全局观

建立”全局地图”，带你从感性认识进入严格定义。

1.1 三种机器学习范式的对比：监督 / 无监督 / 强化
1.2 强化学习的核心要素：Agent、Environment、State、Action、Reward
1.3 一个具体例子拆解：机器人学走路发生了什么
1.4 强化学习能解决哪类问题（以及它不擅长什么）
1.5 与 SLAM 的类比：状态估计 vs 策略学习
1.6 强化学习发展简史与里程碑（TD-Gammon → AlphaGo → ChatGPT RLHF）

第二章：数学工具箱——你需要知道的背景知识

面向 SLAM 工程师的 RL 数学速查，已知的快速过，陌生的重点讲。

2.1 概率论回顾：条件概率、期望、方差（与卡尔曼滤波的联系）
2.2 随机过程基础：马尔可夫性质，为什么它在 RL 中无处不在
2.3 贝叶斯推断视角：从贝叶斯滤波到 RL 的状态估计
2.4 最优化基础：梯度下降、随机梯度下降、Adam
2.5 神经网络速览：前向传播、反向传播、通用近似定理
2.6 信息论入门：熵与 KL 散度（PPO、SAC 中会用到）

第三章：马尔可夫决策过程（MDP）——强化学习的数学语言

RL 的一切都建立在 MDP 之上。把这章学透，后续推导水到渠成。

3.1 MDP 的正式定义：五元组 (S, A, P, R, γ)
3.2 状态转移矩阵与环境动力学
3.3 折扣因子 γ 的直觉与数学意义
3.4 回报（Return）：累积折扣奖励的定义
3.5 策略（Policy）的两种形式：确定性策略与随机性策略
3.6 价值函数：状态价值 V(s) 与动作价值 Q(s, a)
3.7 最优策略与最优价值函数的定义
3.8 部分可观测 MDP（POMDP）简介——机器人现实场景的延伸

第四章：动态规划——用完美信息求解 MDP

假设环境模型已知时，如何精确求解最优策略。这是理解后续近似算法的基石。

4.1 Bellman 期望方程：V 和 Q 的递归关系完整推导
4.2 Bellman 最优方程：max 操作的引入
4.3 策略评估（Policy Evaluation）：迭代计算 V^π
4.4 策略改进（Policy Improvement）：贪心策略更新的单调性证明
4.5 策略迭代（Policy Iteration）算法与收敛性
4.6 值迭代（Value Iteration）算法
4.7 动态规划的局限：维度灾难与无模型场景的需求
4.8 与 SLAM 中的图优化对比：离散 DP vs 连续非线性优化

第五章：无模型预测——蒙特卡洛与时序差分学习

当环境模型未知，如何从”经验”中学习价值函数。

5.1 无模型方法的动机：为什么不直接用 DP
5.2 蒙特卡洛（MC）方法：从完整 Episode 估计价值
5.3 MC 的两种形式：首访 MC vs 每访 MC
5.4 时序差分（TD）学习：TD(0) 算法推导
5.5 TD 误差（TD Error）的直觉：预测的预测
5.6 MC vs TD vs DP 三角对比：偏差、方差、引导（bootstrapping）
5.7 TD(λ) 与资格迹（Eligibility Traces）：在线 MC 与 TD 的统一桥梁
5.8 n-step TD：MC 与 TD(0) 之间的连续谱

第六章：无模型控制——Q-Learning 与 Sarsa

从”估计价值”到”改进策略”，学会用 RL 做决策。

6.1 广义策略迭代（GPI）框架：评估与改进的交替循环
6.2 ε-greedy 策略：探索与利用的经典平衡
6.3 Sarsa：On-Policy TD 控制算法推导
6.4 Q-Learning：Off-Policy TD 控制算法推导
6.5 On-Policy vs Off-Policy 的本质区别
6.6 Q-Learning 收敛条件与直觉
6.7 Double Q-Learning：消除最大化偏差
6.8 表格型方法的瓶颈：状态空间爆炸

第七章：函数近似与深度强化学习基础

用神经网络代替查找表，进入现代深度 RL 的大门。

7.1 值函数近似的动机：连续状态空间的处理
7.2 线性函数近似与特征工程
7.3 神经网络作为通用近似器：从监督学习到 RL 的迁移
7.4 半梯度（Semi-Gradient）下降：为什么 RL 梯度更新比监督学习复杂
7.5 目标网络（Target Network）：稳定训练的关键技巧
7.6 经验回放（Experience Replay）：打破时序相关性
7.7 DQN（Deep Q-Network）完整算法：Nature 2015 论文解读
7.8 DQN 的改进家族：Double DQN、Dueling DQN、Prioritized Replay

第八章：策略梯度方法——直接优化策略

不估计价值，直接对策略参数求梯度。这是 PPO、SAC 等现代算法的理论根基。

8.1 策略参数化：Softmax 策略与 Gaussian 策略
8.2 策略优化目标函数的定义
8.3 策略梯度定理（Policy Gradient Theorem）完整推导
8.4 REINFORCE 算法：蒙特卡洛策略梯度
8.5 高方差问题与基线（Baseline）技术
8.6 最优基线的推导：用 V(s) 作基线的合理性
8.7 策略梯度 vs 值函数方法：各自优缺点
8.8 连续动作空间中的策略梯度：机器人控制的自然选择

第九章：Actor-Critic 架构——价值与策略的协同

融合值函数（Critic）与策略（Actor），兼顾偏差与方差。

9.1 Actor-Critic 的基本框架
9.2 Advantage 函数 A(s,a) 的定义与直觉
9.3 A2C（Advantage Actor-Critic）算法推导
9.4 A3C（异步 Actor-Critic）：并行探索的设计思路
9.5 GAE（Generalized Advantage Estimation）：偏差-方差权衡的精细控制
9.6 GAE 完整公式推导与 λ 参数的意义
9.7 TD(λ) 与 GAE 的内在联系

第十章：PPO——现代机器人 RL 的主力算法

从 TRPO 到 PPO 的演进，理解为什么 PPO 成为工程上的首选。

10.1 策略更新的稳定性问题：为什么不能步长太大
10.2 TRPO（Trust Region Policy Optimization）：KL 约束的思路与推导
10.3 TRPO 的工程难点：共轭梯度与二阶优化的代价
10.4 Clipped Surrogate Objective：PPO 的核心创新
10.5 PPO-Clip 完整算法流程与超参数解析
10.6 PPO-KL 惩罚变体对比
10.7 多 Worker 并行采集：PPO 的工程实现模式
10.8 PPO 在人形机器人行走训练中的完整流程案例
10.9 PPO 的局限与常见训练失败模式排查

第十一章：主流算法派系全景图

建立算法家族的认知地图，知道什么时候该用什么。

11.1 强化学习算法分类总览：Model-Based vs Model-Free，On/Off-Policy
11.2 基于模型的 RL（Model-Based RL）：Dyna 架构、World Models、MBPO
11.3 最大熵强化学习：SAC（Soft Actor-Critic）原理与推导
11.4 确定性策略梯度：DDPG 与 TD3
11.5 分布式 RL：IMPALA、Ape-X、R2D2 架构解析
11.6 多智能体 RL（MARL）基础：合作与竞争
11.7 离线强化学习（Offline RL）：从固定数据集中学习
11.8 算法选型指南：连续控制 / 稀疏奖励 / 样本效率 / 工程可维护性

第十二章：从仿真到现实——机器人 RL 的工程挑战

理论与落地之间的那道墙，以及如何翻越它。

12.1 仿真环境的作用：Isaac Gym / MuJoCo / PyBullet 对比
12.2 Sim-to-Real Gap 的来源：动力学误差、感知噪声、延迟
12.3 域随机化（Domain Randomization）：用随机性对冲仿真偏差
12.4 奖励函数设计的艺术：稀疏奖励 vs 稠密奖励，奖励塑形（Reward Shaping）
12.5 课程学习（Curriculum Learning）：从简单到复杂的渐进训练
12.6 状态观测的工程处理：关节角度、IMU、历史帧堆叠
12.7 策略网络结构选择：MLP vs RNN vs Transformer
12.8 Unitree G1 人形机器人行走控制 RL 训练实战复盘

第十三章：进阶读物与学习路径推荐

你的精读书单和下一步方向。

13.1 经典教材推荐与阅读顺序
13.2 必读论文精选：RL 领域里程碑文章导读
13.3 高质量课程推荐（David Silver、Sergey Levine、Pieter Abbeel）
13.4 优质开源实现与代码库推荐
13.5 该领域的顶级会议与期刊：NeurIPS、ICML、ICLR、CoRL、ICRA
13.6 从入门到成为该方向顶级开发者的成长路径

快速导航：按需求找章节

我想了解…	去哪读
RL 是什么，和深度学习有什么区别	第一章
强化学习的数学基础，MDP 是什么	第三章
Bellman 方程怎么推导的	第四章
Q-Learning 怎么工作的	第六章
DQN 为什么需要经验回放和目标网络	第七章
PPO 的 clip 目标函数是怎么来的	第十章
为什么用 SAC 而不是 PPO	第十一章
机器人仿真训练为什么在真机上不好用	第十二章
下一步读什么论文和书	第十三章

本教程力求做到：公式有推导、直觉有类比、工程有落地。每章既可独立阅读，也构成完整的知识链条。