适合读者:有传统 SLAM / 定位建图经验、略懂深度学习的工程师或研究者。
你已经熟悉概率图、贝叶斯滤波、梯度下降——这些都是理解强化学习的绝佳跳板。
课程目标
读完本教程,你将能够:
- 清楚解释强化学习的核心思想,以及它与监督学习的本质区别
- 推导 Bellman 方程、策略梯度定理等核心公式
- 理解从 Q-Learning → DQN → PPO 的演进脉络
- 对”用 RL 训练人形机器人行走”这类工程任务有清晰的方法论认知
- 具备独立阅读顶级 RL 论文的基础能力
章节目录
第一章:什么是强化学习——直觉与全局观
建立”全局地图”,带你从感性认识进入严格定义。
- 1.1 三种机器学习范式的对比:监督 / 无监督 / 强化
- 1.2 强化学习的核心要素:Agent、Environment、State、Action、Reward
- 1.3 一个具体例子拆解:机器人学走路发生了什么
- 1.4 强化学习能解决哪类问题(以及它不擅长什么)
- 1.5 与 SLAM 的类比:状态估计 vs 策略学习
- 1.6 强化学习发展简史与里程碑(TD-Gammon → AlphaGo → ChatGPT RLHF)
第二章:数学工具箱——你需要知道的背景知识
面向 SLAM 工程师的 RL 数学速查,已知的快速过,陌生的重点讲。
- 2.1 概率论回顾:条件概率、期望、方差(与卡尔曼滤波的联系)
- 2.2 随机过程基础:马尔可夫性质,为什么它在 RL 中无处不在
- 2.3 贝叶斯推断视角:从贝叶斯滤波到 RL 的状态估计
- 2.4 最优化基础:梯度下降、随机梯度下降、Adam
- 2.5 神经网络速览:前向传播、反向传播、通用近似定理
- 2.6 信息论入门:熵与 KL 散度(PPO、SAC 中会用到)
第三章:马尔可夫决策过程(MDP)——强化学习的数学语言
RL 的一切都建立在 MDP 之上。把这章学透,后续推导水到渠成。
- 3.1 MDP 的正式定义:五元组 (S, A, P, R, γ)
- 3.2 状态转移矩阵与环境动力学
- 3.3 折扣因子 γ 的直觉与数学意义
- 3.4 回报(Return):累积折扣奖励的定义
- 3.5 策略(Policy)的两种形式:确定性策略与随机性策略
- 3.6 价值函数:状态价值 V(s) 与动作价值 Q(s, a)
- 3.7 最优策略与最优价值函数的定义
- 3.8 部分可观测 MDP(POMDP)简介——机器人现实场景的延伸
第四章:动态规划——用完美信息求解 MDP
假设环境模型已知时,如何精确求解最优策略。这是理解后续近似算法的基石。
- 4.1 Bellman 期望方程:V 和 Q 的递归关系完整推导
- 4.2 Bellman 最优方程:max 操作的引入
- 4.3 策略评估(Policy Evaluation):迭代计算 V^π
- 4.4 策略改进(Policy Improvement):贪心策略更新的单调性证明
- 4.5 策略迭代(Policy Iteration)算法与收敛性
- 4.6 值迭代(Value Iteration)算法
- 4.7 动态规划的局限:维度灾难与无模型场景的需求
- 4.8 与 SLAM 中的图优化对比:离散 DP vs 连续非线性优化
第五章:无模型预测——蒙特卡洛与时序差分学习
当环境模型未知,如何从”经验”中学习价值函数。
- 5.1 无模型方法的动机:为什么不直接用 DP
- 5.2 蒙特卡洛(MC)方法:从完整 Episode 估计价值
- 5.3 MC 的两种形式:首访 MC vs 每访 MC
- 5.4 时序差分(TD)学习:TD(0) 算法推导
- 5.5 TD 误差(TD Error)的直觉:预测的预测
- 5.6 MC vs TD vs DP 三角对比:偏差、方差、引导(bootstrapping)
- 5.7 TD(λ) 与资格迹(Eligibility Traces):在线 MC 与 TD 的统一桥梁
- 5.8 n-step TD:MC 与 TD(0) 之间的连续谱
第六章:无模型控制——Q-Learning 与 Sarsa
从”估计价值”到”改进策略”,学会用 RL 做决策。
- 6.1 广义策略迭代(GPI)框架:评估与改进的交替循环
- 6.2 ε-greedy 策略:探索与利用的经典平衡
- 6.3 Sarsa:On-Policy TD 控制算法推导
- 6.4 Q-Learning:Off-Policy TD 控制算法推导
- 6.5 On-Policy vs Off-Policy 的本质区别
- 6.6 Q-Learning 收敛条件与直觉
- 6.7 Double Q-Learning:消除最大化偏差
- 6.8 表格型方法的瓶颈:状态空间爆炸
第七章:函数近似与深度强化学习基础
用神经网络代替查找表,进入现代深度 RL 的大门。
- 7.1 值函数近似的动机:连续状态空间的处理
- 7.2 线性函数近似与特征工程
- 7.3 神经网络作为通用近似器:从监督学习到 RL 的迁移
- 7.4 半梯度(Semi-Gradient)下降:为什么 RL 梯度更新比监督学习复杂
- 7.5 目标网络(Target Network):稳定训练的关键技巧
- 7.6 经验回放(Experience Replay):打破时序相关性
- 7.7 DQN(Deep Q-Network)完整算法:Nature 2015 论文解读
- 7.8 DQN 的改进家族:Double DQN、Dueling DQN、Prioritized Replay
第八章:策略梯度方法——直接优化策略
不估计价值,直接对策略参数求梯度。这是 PPO、SAC 等现代算法的理论根基。
- 8.1 策略参数化:Softmax 策略与 Gaussian 策略
- 8.2 策略优化目标函数的定义
- 8.3 策略梯度定理(Policy Gradient Theorem)完整推导
- 8.4 REINFORCE 算法:蒙特卡洛策略梯度
- 8.5 高方差问题与基线(Baseline)技术
- 8.6 最优基线的推导:用 V(s) 作基线的合理性
- 8.7 策略梯度 vs 值函数方法:各自优缺点
- 8.8 连续动作空间中的策略梯度:机器人控制的自然选择
第九章:Actor-Critic 架构——价值与策略的协同
融合值函数(Critic)与策略(Actor),兼顾偏差与方差。
- 9.1 Actor-Critic 的基本框架
- 9.2 Advantage 函数 A(s,a) 的定义与直觉
- 9.3 A2C(Advantage Actor-Critic)算法推导
- 9.4 A3C(异步 Actor-Critic):并行探索的设计思路
- 9.5 GAE(Generalized Advantage Estimation):偏差-方差权衡的精细控制
- 9.6 GAE 完整公式推导与 λ 参数的意义
- 9.7 TD(λ) 与 GAE 的内在联系
第十章:PPO——现代机器人 RL 的主力算法
从 TRPO 到 PPO 的演进,理解为什么 PPO 成为工程上的首选。
- 10.1 策略更新的稳定性问题:为什么不能步长太大
- 10.2 TRPO(Trust Region Policy Optimization):KL 约束的思路与推导
- 10.3 TRPO 的工程难点:共轭梯度与二阶优化的代价
- 10.4 Clipped Surrogate Objective:PPO 的核心创新
- 10.5 PPO-Clip 完整算法流程与超参数解析
- 10.6 PPO-KL 惩罚变体对比
- 10.7 多 Worker 并行采集:PPO 的工程实现模式
- 10.8 PPO 在人形机器人行走训练中的完整流程案例
- 10.9 PPO 的局限与常见训练失败模式排查
第十一章:主流算法派系全景图
建立算法家族的认知地图,知道什么时候该用什么。
- 11.1 强化学习算法分类总览:Model-Based vs Model-Free,On/Off-Policy
- 11.2 基于模型的 RL(Model-Based RL):Dyna 架构、World Models、MBPO
- 11.3 最大熵强化学习:SAC(Soft Actor-Critic)原理与推导
- 11.4 确定性策略梯度:DDPG 与 TD3
- 11.5 分布式 RL:IMPALA、Ape-X、R2D2 架构解析
- 11.6 多智能体 RL(MARL)基础:合作与竞争
- 11.7 离线强化学习(Offline RL):从固定数据集中学习
- 11.8 算法选型指南:连续控制 / 稀疏奖励 / 样本效率 / 工程可维护性
第十二章:从仿真到现实——机器人 RL 的工程挑战
理论与落地之间的那道墙,以及如何翻越它。
- 12.1 仿真环境的作用:Isaac Gym / MuJoCo / PyBullet 对比
- 12.2 Sim-to-Real Gap 的来源:动力学误差、感知噪声、延迟
- 12.3 域随机化(Domain Randomization):用随机性对冲仿真偏差
- 12.4 奖励函数设计的艺术:稀疏奖励 vs 稠密奖励,奖励塑形(Reward Shaping)
- 12.5 课程学习(Curriculum Learning):从简单到复杂的渐进训练
- 12.6 状态观测的工程处理:关节角度、IMU、历史帧堆叠
- 12.7 策略网络结构选择:MLP vs RNN vs Transformer
- 12.8 Unitree G1 人形机器人行走控制 RL 训练实战复盘
第十三章:进阶读物与学习路径推荐
你的精读书单和下一步方向。
- 13.1 经典教材推荐与阅读顺序
- 13.2 必读论文精选:RL 领域里程碑文章导读
- 13.3 高质量课程推荐(David Silver、Sergey Levine、Pieter Abbeel)
- 13.4 优质开源实现与代码库推荐
- 13.5 该领域的顶级会议与期刊:NeurIPS、ICML、ICLR、CoRL、ICRA
- 13.6 从入门到成为该方向顶级开发者的成长路径
快速导航:按需求找章节
| 我想了解… | 去哪读 |
|---|---|
| RL 是什么,和深度学习有什么区别 | 第一章 |
| 强化学习的数学基础,MDP 是什么 | 第三章 |
| Bellman 方程怎么推导的 | 第四章 |
| Q-Learning 怎么工作的 | 第六章 |
| DQN 为什么需要经验回放和目标网络 | 第七章 |
| PPO 的 clip 目标函数是怎么来的 | 第十章 |
| 为什么用 SAC 而不是 PPO | 第十一章 |
| 机器人仿真训练为什么在真机上不好用 | 第十二章 |
| 下一步读什么论文和书 | 第十三章 |
本教程力求做到:公式有推导、直觉有类比、工程有落地。每章既可独立阅读,也构成完整的知识链条。