目标:你已经系统学完了 RL 的核心理论与工程落地。这一章告诉你下一步去哪里、读什么、练什么——如何从”入门”走向”真正的专家”。
13.1 经典教材推荐与阅读顺序
第一梯队:必读
① Sutton & Barto — Reinforcement Learning: An Introduction (2nd Ed.)
RL 领域的圣经,几乎所有 RL 课程都以此为基础。语言平易,推导严谨,覆盖从 MDP 到函数近似的完整理论。
- 难度:★★★☆☆(有一定数学基础即可)
- 免费在线:incompleteideas.net/book/the-book-2nd.html
- 建议顺序:先读第 1-9 章(基础),第 13 章(策略梯度);其余按需查阅
- 与本教程的对应:本书是本教程第 3-9 章的权威来源
② Csaba Szepesvári — Algorithms for Reinforcement Learning
薄册,偏理论,适合想深入数学收敛性证明的读者。
第二梯队:深入方向
③ Agarwal et al. — Reinforcement Learning: Theory and Algorithms
CMU 课程教材,理论更深,覆盖 PAC 分析、表示论、在线学习等现代主题。
④ Levine et al. — Offline Reinforcement Learning: Tutorial, Review, and Perspectives
Offline RL 的权威综述(70+ 页),适合从事真机学习的工程师。
- arXiv:arXiv:2005.01643
13.2 必读论文精选
按学习顺序排列:
基础算法
| 论文 | 贡献 | 链接 |
|---|---|---|
| Watkins (1992) | Q-Learning 收敛证明 | |
| Mnih et al. (2015) | DQN:深度 RL 破圈之作 | arXiv:1312.5602 |
| Mnih et al. (2016) | A3C:并行 Actor-Critic | arXiv:1602.01783 |
| Schulman et al. (2016) | GAE:广义优势估计 | arXiv:1506.02438 |
| Schulman et al. (2015) | TRPO:信任域策略优化 | arXiv:1502.05477 |
| Schulman et al. (2017) | PPO:必读,机器人 RL 基础 | arXiv:1707.06347 |
| Haarnoja et al. (2018) | SAC:最大熵 Actor-Critic | arXiv:1801.01290 |
| Fujimoto et al. (2018) | TD3:修复 DDPG 的高估 | arXiv:1802.09477 |
机器人 RL 专项
| 论文 | 贡献 | 链接 |
|---|---|---|
| Rudin et al. (2022) | legged_gym:分钟级四足行走 | arXiv:2109.11978 |
| Lee et al. (2020) | ANYmal Sim-to-Real(ETH) | arXiv:1907.04245 |
| Kumar et al. (2021) | RMA:快速运动适应 | arXiv:2107.04034 |
| Tobin et al. (2017) | 域随机化 Sim-to-Real | arXiv:1703.06907 |
| Zhuang et al. (2023) | 人形机器人 H1 行走 | arXiv:2309.01320 |
| He et al. (2024) | OmniH2O:全身人形控制 | arXiv:2406.08858 |
前沿进展
| 论文 | 贡献 | 链接 |
|---|---|---|
| Hafner et al. (2023) | DreamerV3:世界模型 RL | arXiv:2301.04104 |
| Kumar et al. (2020) | CQL:离线 RL | arXiv:2006.04779 |
| Christiano et al. (2017) | RLHF:人类偏好对齐 | arXiv:1706.03741 |
| Huang et al. (2022) | PPO 37 个实现细节(必读!) | arXiv:2005.12729 |
13.2b 2025–2026 Key Papers
The following papers represent the leading edge of humanoid robot RL as of early 2026. Organized by topic.
Humanoid Locomotion (2024–2026)
| Paper | Contribution | Venue |
|---|---|---|
| He et al. (2024). OmniH2O | Universal whole-body loco-manipulation for H2O robot | CoRL 2024 — arXiv:2406.08858 |
| Zhuang et al. (2024). Humanoid Parkour | Agile parkour for humanoid via PPO + AMP | arXiv — arXiv:2406.10759 |
| He et al. (2025). HOVER | Versatile humanoid loco-manipulation with unified policy | ICRA 2025 — arXiv:2410.21229 |
| Liu et al. (2025). HumanoidBench | Standardized benchmark for 27 humanoid manipulation+loco tasks | NeurIPS 2024 — arXiv:2403.10506 |
Sim-to-Real and Adaptation (2024–2026)
| Paper | Contribution | Venue |
|---|---|---|
| Fu et al. (2024). Humanoid Locomotion as Next Token Prediction | LLM-style autoregressive policy for robot locomotion | arXiv — arXiv:2402.19469 |
| Radosavovic et al. (2024). Real-World Humanoid Locomotion with Reinforcement Learning | End-to-end real-world humanoid without motion priors | Science Robotics 2024 — arXiv:2303.03381 |
| Howell et al. (2022/2025). MuJoCo MPC | Fast trajectory optimization for contact-rich tasks | ICRA 2023 → extended 2025 — arXiv:2212.09078 |
Diffusion and Generative Policies (2023–2025)
| Paper | Contribution | Venue |
|---|---|---|
| Chi et al. (2023). Diffusion Policy | Score-matching policy for dexterous manipulation | RSS 2023 — arXiv:2303.04137 |
| Lipman et al. (2022). Flow Matching | Fast, stable generative models (basis for flow policies) | ICLR 2023 — arXiv:2210.02747 |
| Black et al. (2024). π₀ (Pi-Zero) | Foundation model for robot dexterous tasks | Physical Intelligence — arXiv:2410.24164 |
Foundation Models for Robotics (2024–2026)
| Paper | Contribution | Venue |
|---|---|---|
| Brohan et al. (2023). RT-2 | Vision-language-action model for robot manipulation | CoRL 2023 — arXiv:2307.15818 |
| Team et al. (2024). OpenVLA | Open-source vision-language-action model | arXiv — arXiv:2406.09246 |
| Zhen et al. (2024). 3D-VLA | 3D vision-language-action grounding | ICML 2024 — arXiv:2403.09631 |
13.3 高质量课程推荐
David Silver — UCL RL Course(2015)
RL 领域最经典的入门公开课,与 Sutton & Barto 教材高度对应,讲解深入浅出。
- YouTube:David Silver RL Course Playlist
- 课件:davidsilver.uk/teaching/
- 适合:系统入门,搭配 S&B 教材食用
Sergey Levine — CS285 Deep RL(UC Berkeley)
更侧重深度学习+RL,覆盖最新进展(Offline RL, IRL, MBRL),每年更新。
- 课程主页:rail.eecs.berkeley.edu/deeprlcourse/
- YouTube:搜索 “CS285 2023” 即可
- 适合:有深度学习基础,希望深入理论
Pieter Abbeel — Foundations of Deep RL(2021)
6节精品课,聚焦 PPO、SAC、Model-Based RL 等现代算法,视频短而精。
- YouTube:Pieter Abbeel’s YouTube Channel
- 适合:时间有限,快速掌握现代算法
Emma Brunskill — CS234 Stanford RL
斯坦福版本,理论更严谨,包含更多 PAC-MDP 内容。
- 课程主页:cs234.stanford.edu
13.4 优质开源实现推荐
入门学习首选
CleanRL:单文件实现,代码极简,强烈推荐
GitHub:vwxyzjn/cleanrl
特点:每个算法一个文件,无复杂依赖,适合理解原理
支持:PPO、DQN、SAC、TD3、DDPG...
工业级实现
Stable-Baselines3(推荐实际项目)
GitHub:DLR-RM/stable-baselines3
特点:经过广泛测试,文档完善,与 gym 接口兼容
支持:PPO、SAC、TD3、DQN、A2C...
RLlib(Ray 生态)
GitHub:ray-project/ray/rllib
特点:大规模分布式 RL,生产级别
适合:多机多卡、大规模训练
机器人专项
legged_gym(ETH Zurich)
GitHub:leggedrobotics/legged_gym
特点:腿足机器人 RL 的事实标准
rsl_rl(高性能 PPO/VecEnv)
GitHub:leggedrobotics/rsl_rl
IsaacLab(NVIDIA 官方)
GitHub:isaac-sim/IsaacLab
特点:GPU 并行仿真,与 Isaac Gym 接轨
unitree_rl_gym(Unitree 官方)
GitHub:unitreerobotics/unitree_rl_gym
特点:G1/H1/Go2 官方训练套件
13.5 顶级会议与期刊
关注这些地方,追踪领域最新进展:
会议
| 会议 | 侧重 | 时间 | 投稿难度 |
|---|---|---|---|
| NeurIPS | 机器学习/RL 理论 | 12月 | 极高 |
| ICML | 机器学习(含 RL) | 7月 | 极高 |
| ICLR | 深度学习/RL | 4月 | 极高 |
| CoRL | 机器人学习 | 11月 | 高 |
| ICRA | 机器人(含 RL 应用) | 5月 | 高 |
| IROS | 智能机器人系统 | 10月 | 中高 |
| RSS | 机器人系统科学 | 7月 | 高 |
预印本平台
arXiv.org:cs.AI、cs.LG、cs.RO 分类下每天有大量新论文。
订阅方式:arxiv-sanity.com(过滤推荐)或直接 RSS。
机构博客(高质量技术博文)
Google DeepMind Blog:deepmind.google/discover/blog/
OpenAI Blog:openai.com/research/
Berkeley BAIR Blog:bair.berkeley.edu/blog/
ETH ASL/RSL:按研究组名字在 arxiv 搜索
13.6 从入门到成为顶级开发者的成长路径
阶段 0(已完成):理论入门
读完本教程 → 能解释 MDP、Bellman 方程、PPO
阶段 1:手写算法(1-2个月)
不用任何框架,从零实现:
- Q-Learning(格子世界)
- REINFORCE(CartPole)
- PPO(MuJoCo Ant 或 HalfCheetah)
关键:手写让你真正理解每一行代码的含义,而不是调参者。
推荐环境:gymnasium(OpenAI Gym 的继任者)
阶段 2:复现经典论文(2-4个月)
选一篇,从头复现,对比原论文数字:
- DQN(Atari Pong 或 Breakout)
- PPO(MuJoCo HalfCheetah)
- SAC(MuJoCo Ant)
检验标准:复现结果与论文原图的曲线基本吻合。
参考:arXiv:2005.12729(PPO 37 实现细节)
阶段 3:机器人具身 RL(3-6个月)
目标:在 IsaacLab 上训练 G1 机器人行走,并尝试 Sim-to-Real。
路线:
Week 1-2:搭建 IsaacLab 环境,跑通 legged_gym demo
Week 3-4:修改奖励函数,观察行为变化
Week 5-8:从头设计任务(如转弯、爬坡)
Week 9+:Sim-to-Real 部署实验
阶段 4:前沿研究(持续)
开始阅读和实现前沿论文:
- World Models / DreamerV3:用于更高样本效率
- Offline RL:利用真机历史数据
- 多模态输入:视觉+本体感知的端到端策略
- RLHF:人类反馈强化学习(LLM 对齐相关)
- Foundation Models for Robotics:大模型赋能具身智能
成为顶级开发者的标志
技术广度:
✓ 能独立调试 PPO/SAC 训练失败的根本原因
✓ 能从 0 设计奖励函数让机器人完成新任务
✓ 能跨越 Sim-to-Real Gap,让策略在真机运行
技术深度:
✓ 能推导策略梯度定理、GAE、PPO-Clip
✓ 理解各算法在收敛性/样本效率/稳定性上的取舍
✓ 能阅读任何 RL 论文并在 1 周内复现核心结果
工程能力:
✓ 设计并发现高样本效率的奖励函数
✓ 用 Isaac Gym/Lab 设置大规模并行训练
✓ 在真机上完成端到端的 RL → 部署流程
附:学习资源汇总表
类型 资源 链接
─────────────────────────────────────────────────────────────
教材 Sutton & Barto(免费) incompleteideas.net/book
教材 CS285 课件(年年更新) rail.eecs.berkeley.edu/deeprlcourse
视频 David Silver UCL Course YouTube: David Silver RL
视频 CS285 Berkeley YouTube: CS285 2023
代码 CleanRL(入门最佳) github.com/vwxyzjn/cleanrl
代码 Stable-Baselines3 github.com/DLR-RM/stable-baselines3
机器人 legged_gym(腿足标准) github.com/leggedrobotics/legged_gym
机器人 IsaacLab(NVIDIA 官方) github.com/isaac-sim/IsaacLab
机器人 unitree_rl_gym(G1/H1) github.com/unitreerobotics/unitree_rl_gym
论文检索 arXiv cs.LG + cs.RO arxiv.org
论文过滤 arxiv-sanity arxiv-sanity.com
社区 r/reinforcementlearning reddit.com/r/reinforcementlearning
结语
强化学习是目前机器人具身智能领域最核心的使能技术。你从 SLAM 工程师的视角进入这个领域,拥有两大天然优势:
- 概率思维:SLAM 中的贝叶斯滤波、不确定性建模——这些直接映射到 RL 的状态估计和策略不确定性
- 工程直觉:机器人运动学/动力学的感性认识,让你在设计奖励函数和理解 Sim-to-Real 时比纯 ML 工程师快很多
这个领域发展极快。2020 年能让四足机器人稳定奔跑的技术,今天已经能让人形机器人做复杂动作。当你读到这里,可能 DreamerV4 或者 PPO 的某种继任者已经出现了。
学习建议:理论和工程永远结合。公式推导过了,就去跑代码;代码跑出问题,就回来查数学。这个循环做几次,你就会发现自己的理解在质变。
延伸阅读
- OpenAI Spinning Up(完整 RL 导览)— spinningup.openai.com
- Sutton & Barto(2nd Ed.)— 免费在线
- CleanRL 代码库(算法单文件实现)— github.com/vwxyzjn/cleanrl
- The 37 Implementation Details of PPO — arXiv:2005.12729
- IsaacLab 官方教程 — isaac-sim.github.io/IsaacLab