适合读者:有传统 SLAM / 定位建图经验、略懂深度学习的工程师或研究者。
你已经熟悉概率图、贝叶斯滤波、梯度下降——这些都是理解强化学习的绝佳跳板。


课程目标

读完本教程,你将能够:

  • 清楚解释强化学习的核心思想,以及它与监督学习的本质区别
  • 推导 Bellman 方程、策略梯度定理等核心公式
  • 理解从 Q-Learning → DQN → PPO 的演进脉络
  • 对”用 RL 训练人形机器人行走”这类工程任务有清晰的方法论认知
  • 具备独立阅读顶级 RL 论文的基础能力

章节目录

第一章:什么是强化学习——直觉与全局观

建立”全局地图”,带你从感性认识进入严格定义。

  • 1.1 三种机器学习范式的对比:监督 / 无监督 / 强化
  • 1.2 强化学习的核心要素:Agent、Environment、State、Action、Reward
  • 1.3 一个具体例子拆解:机器人学走路发生了什么
  • 1.4 强化学习能解决哪类问题(以及它不擅长什么)
  • 1.5 与 SLAM 的类比:状态估计 vs 策略学习
  • 1.6 强化学习发展简史与里程碑(TD-Gammon → AlphaGo → ChatGPT RLHF)

第二章:数学工具箱——你需要知道的背景知识

面向 SLAM 工程师的 RL 数学速查,已知的快速过,陌生的重点讲。

  • 2.1 概率论回顾:条件概率、期望、方差(与卡尔曼滤波的联系)
  • 2.2 随机过程基础:马尔可夫性质,为什么它在 RL 中无处不在
  • 2.3 贝叶斯推断视角:从贝叶斯滤波到 RL 的状态估计
  • 2.4 最优化基础:梯度下降、随机梯度下降、Adam
  • 2.5 神经网络速览:前向传播、反向传播、通用近似定理
  • 2.6 信息论入门:熵与 KL 散度(PPO、SAC 中会用到)

第三章:马尔可夫决策过程(MDP)——强化学习的数学语言

RL 的一切都建立在 MDP 之上。把这章学透,后续推导水到渠成。

  • 3.1 MDP 的正式定义:五元组 (S, A, P, R, γ)
  • 3.2 状态转移矩阵与环境动力学
  • 3.3 折扣因子 γ 的直觉与数学意义
  • 3.4 回报(Return):累积折扣奖励的定义
  • 3.5 策略(Policy)的两种形式:确定性策略与随机性策略
  • 3.6 价值函数:状态价值 V(s) 与动作价值 Q(s, a)
  • 3.7 最优策略与最优价值函数的定义
  • 3.8 部分可观测 MDP(POMDP)简介——机器人现实场景的延伸

第四章:动态规划——用完美信息求解 MDP

假设环境模型已知时,如何精确求解最优策略。这是理解后续近似算法的基石。

  • 4.1 Bellman 期望方程:V 和 Q 的递归关系完整推导
  • 4.2 Bellman 最优方程:max 操作的引入
  • 4.3 策略评估(Policy Evaluation):迭代计算 V^π
  • 4.4 策略改进(Policy Improvement):贪心策略更新的单调性证明
  • 4.5 策略迭代(Policy Iteration)算法与收敛性
  • 4.6 值迭代(Value Iteration)算法
  • 4.7 动态规划的局限:维度灾难与无模型场景的需求
  • 4.8 与 SLAM 中的图优化对比:离散 DP vs 连续非线性优化

第五章:无模型预测——蒙特卡洛与时序差分学习

当环境模型未知,如何从”经验”中学习价值函数。

  • 5.1 无模型方法的动机:为什么不直接用 DP
  • 5.2 蒙特卡洛(MC)方法:从完整 Episode 估计价值
  • 5.3 MC 的两种形式:首访 MC vs 每访 MC
  • 5.4 时序差分(TD)学习:TD(0) 算法推导
  • 5.5 TD 误差(TD Error)的直觉:预测的预测
  • 5.6 MC vs TD vs DP 三角对比:偏差、方差、引导(bootstrapping)
  • 5.7 TD(λ) 与资格迹(Eligibility Traces):在线 MC 与 TD 的统一桥梁
  • 5.8 n-step TD:MC 与 TD(0) 之间的连续谱

第六章:无模型控制——Q-Learning 与 Sarsa

从”估计价值”到”改进策略”,学会用 RL 做决策。

  • 6.1 广义策略迭代(GPI)框架:评估与改进的交替循环
  • 6.2 ε-greedy 策略:探索与利用的经典平衡
  • 6.3 Sarsa:On-Policy TD 控制算法推导
  • 6.4 Q-Learning:Off-Policy TD 控制算法推导
  • 6.5 On-Policy vs Off-Policy 的本质区别
  • 6.6 Q-Learning 收敛条件与直觉
  • 6.7 Double Q-Learning:消除最大化偏差
  • 6.8 表格型方法的瓶颈:状态空间爆炸

第七章:函数近似与深度强化学习基础

用神经网络代替查找表,进入现代深度 RL 的大门。

  • 7.1 值函数近似的动机:连续状态空间的处理
  • 7.2 线性函数近似与特征工程
  • 7.3 神经网络作为通用近似器:从监督学习到 RL 的迁移
  • 7.4 半梯度(Semi-Gradient)下降:为什么 RL 梯度更新比监督学习复杂
  • 7.5 目标网络(Target Network):稳定训练的关键技巧
  • 7.6 经验回放(Experience Replay):打破时序相关性
  • 7.7 DQN(Deep Q-Network)完整算法:Nature 2015 论文解读
  • 7.8 DQN 的改进家族:Double DQN、Dueling DQN、Prioritized Replay

第八章:策略梯度方法——直接优化策略

不估计价值,直接对策略参数求梯度。这是 PPO、SAC 等现代算法的理论根基。

  • 8.1 策略参数化:Softmax 策略与 Gaussian 策略
  • 8.2 策略优化目标函数的定义
  • 8.3 策略梯度定理(Policy Gradient Theorem)完整推导
  • 8.4 REINFORCE 算法:蒙特卡洛策略梯度
  • 8.5 高方差问题与基线(Baseline)技术
  • 8.6 最优基线的推导:用 V(s) 作基线的合理性
  • 8.7 策略梯度 vs 值函数方法:各自优缺点
  • 8.8 连续动作空间中的策略梯度:机器人控制的自然选择

第九章:Actor-Critic 架构——价值与策略的协同

融合值函数(Critic)与策略(Actor),兼顾偏差与方差。

  • 9.1 Actor-Critic 的基本框架
  • 9.2 Advantage 函数 A(s,a) 的定义与直觉
  • 9.3 A2C(Advantage Actor-Critic)算法推导
  • 9.4 A3C(异步 Actor-Critic):并行探索的设计思路
  • 9.5 GAE(Generalized Advantage Estimation):偏差-方差权衡的精细控制
  • 9.6 GAE 完整公式推导与 λ 参数的意义
  • 9.7 TD(λ) 与 GAE 的内在联系

第十章:PPO——现代机器人 RL 的主力算法

从 TRPO 到 PPO 的演进,理解为什么 PPO 成为工程上的首选。

  • 10.1 策略更新的稳定性问题:为什么不能步长太大
  • 10.2 TRPO(Trust Region Policy Optimization):KL 约束的思路与推导
  • 10.3 TRPO 的工程难点:共轭梯度与二阶优化的代价
  • 10.4 Clipped Surrogate Objective:PPO 的核心创新
  • 10.5 PPO-Clip 完整算法流程与超参数解析
  • 10.6 PPO-KL 惩罚变体对比
  • 10.7 多 Worker 并行采集:PPO 的工程实现模式
  • 10.8 PPO 在人形机器人行走训练中的完整流程案例
  • 10.9 PPO 的局限与常见训练失败模式排查

第十一章:主流算法派系全景图

建立算法家族的认知地图,知道什么时候该用什么。

  • 11.1 强化学习算法分类总览:Model-Based vs Model-Free,On/Off-Policy
  • 11.2 基于模型的 RL(Model-Based RL):Dyna 架构、World Models、MBPO
  • 11.3 最大熵强化学习:SAC(Soft Actor-Critic)原理与推导
  • 11.4 确定性策略梯度:DDPG 与 TD3
  • 11.5 分布式 RL:IMPALA、Ape-X、R2D2 架构解析
  • 11.6 多智能体 RL(MARL)基础:合作与竞争
  • 11.7 离线强化学习(Offline RL):从固定数据集中学习
  • 11.8 算法选型指南:连续控制 / 稀疏奖励 / 样本效率 / 工程可维护性

第十二章:从仿真到现实——机器人 RL 的工程挑战

理论与落地之间的那道墙,以及如何翻越它。

  • 12.1 仿真环境的作用:Isaac Gym / MuJoCo / PyBullet 对比
  • 12.2 Sim-to-Real Gap 的来源:动力学误差、感知噪声、延迟
  • 12.3 域随机化(Domain Randomization):用随机性对冲仿真偏差
  • 12.4 奖励函数设计的艺术:稀疏奖励 vs 稠密奖励,奖励塑形(Reward Shaping)
  • 12.5 课程学习(Curriculum Learning):从简单到复杂的渐进训练
  • 12.6 状态观测的工程处理:关节角度、IMU、历史帧堆叠
  • 12.7 策略网络结构选择:MLP vs RNN vs Transformer
  • 12.8 Unitree G1 人形机器人行走控制 RL 训练实战复盘

第十三章:进阶读物与学习路径推荐

你的精读书单和下一步方向。

  • 13.1 经典教材推荐与阅读顺序
  • 13.2 必读论文精选:RL 领域里程碑文章导读
  • 13.3 高质量课程推荐(David Silver、Sergey Levine、Pieter Abbeel)
  • 13.4 优质开源实现与代码库推荐
  • 13.5 该领域的顶级会议与期刊:NeurIPS、ICML、ICLR、CoRL、ICRA
  • 13.6 从入门到成为该方向顶级开发者的成长路径

快速导航:按需求找章节

我想了解… 去哪读
RL 是什么,和深度学习有什么区别 第一章
强化学习的数学基础,MDP 是什么 第三章
Bellman 方程怎么推导的 第四章
Q-Learning 怎么工作的 第六章
DQN 为什么需要经验回放和目标网络 第七章
PPO 的 clip 目标函数是怎么来的 第十章
为什么用 SAC 而不是 PPO 第十一章
机器人仿真训练为什么在真机上不好用 第十二章
下一步读什么论文和书 第十三章

本教程力求做到:公式有推导、直觉有类比、工程有落地。每章既可独立阅读,也构成完整的知识链条。


强化学习教程 © 2026 | 基于强化学习的人形机器人行走控制

This site uses Just the Docs, a documentation theme for Jekyll.