目标:你已经系统学完了 RL 的核心理论与工程落地。这一章告诉你下一步去哪里、读什么、练什么——如何从”入门”走向”真正的专家”。


13.1 经典教材推荐与阅读顺序

第一梯队:必读

① Sutton & Barto — Reinforcement Learning: An Introduction (2nd Ed.)

RL 领域的圣经,几乎所有 RL 课程都以此为基础。语言平易,推导严谨,覆盖从 MDP 到函数近似的完整理论。

  • 难度:★★★☆☆(有一定数学基础即可)
  • 免费在线incompleteideas.net/book/the-book-2nd.html
  • 建议顺序:先读第 1-9 章(基础),第 13 章(策略梯度);其余按需查阅
  • 与本教程的对应:本书是本教程第 3-9 章的权威来源

② Csaba Szepesvári — Algorithms for Reinforcement Learning

薄册,偏理论,适合想深入数学收敛性证明的读者。

第二梯队:深入方向

③ Agarwal et al. — Reinforcement Learning: Theory and Algorithms

CMU 课程教材,理论更深,覆盖 PAC 分析、表示论、在线学习等现代主题。

④ Levine et al. — Offline Reinforcement Learning: Tutorial, Review, and Perspectives

Offline RL 的权威综述(70+ 页),适合从事真机学习的工程师。


13.2 必读论文精选

按学习顺序排列:

基础算法

论文 贡献 链接
Watkins (1992) Q-Learning 收敛证明 PDF
Mnih et al. (2015) DQN:深度 RL 破圈之作 arXiv:1312.5602
Mnih et al. (2016) A3C:并行 Actor-Critic arXiv:1602.01783
Schulman et al. (2016) GAE:广义优势估计 arXiv:1506.02438
Schulman et al. (2015) TRPO:信任域策略优化 arXiv:1502.05477
Schulman et al. (2017) PPO:必读,机器人 RL 基础 arXiv:1707.06347
Haarnoja et al. (2018) SAC:最大熵 Actor-Critic arXiv:1801.01290
Fujimoto et al. (2018) TD3:修复 DDPG 的高估 arXiv:1802.09477

机器人 RL 专项

论文 贡献 链接
Rudin et al. (2022) legged_gym:分钟级四足行走 arXiv:2109.11978
Lee et al. (2020) ANYmal Sim-to-Real(ETH) arXiv:1907.04245
Kumar et al. (2021) RMA:快速运动适应 arXiv:2107.04034
Tobin et al. (2017) 域随机化 Sim-to-Real arXiv:1703.06907
Zhuang et al. (2023) 人形机器人 H1 行走 arXiv:2309.01320
He et al. (2024) OmniH2O:全身人形控制 arXiv:2406.08858

前沿进展

论文 贡献 链接
Hafner et al. (2023) DreamerV3:世界模型 RL arXiv:2301.04104
Kumar et al. (2020) CQL:离线 RL arXiv:2006.04779
Christiano et al. (2017) RLHF:人类偏好对齐 arXiv:1706.03741
Huang et al. (2022) PPO 37 个实现细节(必读!) arXiv:2005.12729

13.2b 2025–2026 Key Papers

The following papers represent the leading edge of humanoid robot RL as of early 2026. Organized by topic.

Humanoid Locomotion (2024–2026)

Paper Contribution Venue
He et al. (2024). OmniH2O Universal whole-body loco-manipulation for H2O robot CoRL 2024 — arXiv:2406.08858
Zhuang et al. (2024). Humanoid Parkour Agile parkour for humanoid via PPO + AMP arXiv — arXiv:2406.10759
He et al. (2025). HOVER Versatile humanoid loco-manipulation with unified policy ICRA 2025 — arXiv:2410.21229
Liu et al. (2025). HumanoidBench Standardized benchmark for 27 humanoid manipulation+loco tasks NeurIPS 2024 — arXiv:2403.10506

Sim-to-Real and Adaptation (2024–2026)

Paper Contribution Venue
Fu et al. (2024). Humanoid Locomotion as Next Token Prediction LLM-style autoregressive policy for robot locomotion arXiv — arXiv:2402.19469
Radosavovic et al. (2024). Real-World Humanoid Locomotion with Reinforcement Learning End-to-end real-world humanoid without motion priors Science Robotics 2024 — arXiv:2303.03381
Howell et al. (2022/2025). MuJoCo MPC Fast trajectory optimization for contact-rich tasks ICRA 2023 → extended 2025 — arXiv:2212.09078

Diffusion and Generative Policies (2023–2025)

Paper Contribution Venue
Chi et al. (2023). Diffusion Policy Score-matching policy for dexterous manipulation RSS 2023 — arXiv:2303.04137
Lipman et al. (2022). Flow Matching Fast, stable generative models (basis for flow policies) ICLR 2023 — arXiv:2210.02747
Black et al. (2024). π₀ (Pi-Zero) Foundation model for robot dexterous tasks Physical Intelligence — arXiv:2410.24164

Foundation Models for Robotics (2024–2026)

Paper Contribution Venue
Brohan et al. (2023). RT-2 Vision-language-action model for robot manipulation CoRL 2023 — arXiv:2307.15818
Team et al. (2024). OpenVLA Open-source vision-language-action model arXiv — arXiv:2406.09246
Zhen et al. (2024). 3D-VLA 3D vision-language-action grounding ICML 2024 — arXiv:2403.09631

13.3 高质量课程推荐

David Silver — UCL RL Course(2015)

RL 领域最经典的入门公开课,与 Sutton & Barto 教材高度对应,讲解深入浅出。

Sergey Levine — CS285 Deep RL(UC Berkeley)

更侧重深度学习+RL,覆盖最新进展(Offline RL, IRL, MBRL),每年更新。

Pieter Abbeel — Foundations of Deep RL(2021)

6节精品课,聚焦 PPO、SAC、Model-Based RL 等现代算法,视频短而精。

Emma Brunskill — CS234 Stanford RL

斯坦福版本,理论更严谨,包含更多 PAC-MDP 内容。


13.4 优质开源实现推荐

入门学习首选

CleanRL:单文件实现,代码极简,强烈推荐
  GitHub:vwxyzjn/cleanrl
  特点:每个算法一个文件,无复杂依赖,适合理解原理
  支持:PPO、DQN、SAC、TD3、DDPG...

工业级实现

Stable-Baselines3(推荐实际项目)
  GitHub:DLR-RM/stable-baselines3
  特点:经过广泛测试,文档完善,与 gym 接口兼容
  支持:PPO、SAC、TD3、DQN、A2C...

RLlib(Ray 生态)
  GitHub:ray-project/ray/rllib
  特点:大规模分布式 RL,生产级别
  适合:多机多卡、大规模训练

机器人专项

legged_gym(ETH Zurich)
  GitHub:leggedrobotics/legged_gym
  特点:腿足机器人 RL 的事实标准
  
rsl_rl(高性能 PPO/VecEnv)
  GitHub:leggedrobotics/rsl_rl

IsaacLab(NVIDIA 官方)
  GitHub:isaac-sim/IsaacLab
  特点:GPU 并行仿真,与 Isaac Gym 接轨

unitree_rl_gym(Unitree 官方)
  GitHub:unitreerobotics/unitree_rl_gym
  特点:G1/H1/Go2 官方训练套件

13.5 顶级会议与期刊

关注这些地方,追踪领域最新进展:

会议

会议 侧重 时间 投稿难度
NeurIPS 机器学习/RL 理论 12月 极高
ICML 机器学习(含 RL) 7月 极高
ICLR 深度学习/RL 4月 极高
CoRL 机器人学习 11月
ICRA 机器人(含 RL 应用) 5月
IROS 智能机器人系统 10月 中高
RSS 机器人系统科学 7月

预印本平台

arXiv.org:cs.AI、cs.LG、cs.RO 分类下每天有大量新论文。
订阅方式:arxiv-sanity.com(过滤推荐)或直接 RSS。

机构博客(高质量技术博文)

Google DeepMind Blog:deepmind.google/discover/blog/
OpenAI Blog:openai.com/research/
Berkeley BAIR Blog:bair.berkeley.edu/blog/
ETH ASL/RSL:按研究组名字在 arxiv 搜索

13.6 从入门到成为顶级开发者的成长路径

阶段 0(已完成):理论入门

读完本教程 → 能解释 MDP、Bellman 方程、PPO

阶段 1:手写算法(1-2个月)

不用任何框架,从零实现:

  • Q-Learning(格子世界)
  • REINFORCE(CartPole)
  • PPO(MuJoCo Ant 或 HalfCheetah)

关键:手写让你真正理解每一行代码的含义,而不是调参者。

推荐环境:gymnasium(OpenAI Gym 的继任者)

阶段 2:复现经典论文(2-4个月)

选一篇,从头复现,对比原论文数字:

  • DQN(Atari Pong 或 Breakout)
  • PPO(MuJoCo HalfCheetah)
  • SAC(MuJoCo Ant)

检验标准:复现结果与论文原图的曲线基本吻合。

参考:arXiv:2005.12729(PPO 37 实现细节)

阶段 3:机器人具身 RL(3-6个月)

目标:在 IsaacLab 上训练 G1 机器人行走,并尝试 Sim-to-Real。

路线:
  Week 1-2:搭建 IsaacLab 环境,跑通 legged_gym demo
  Week 3-4:修改奖励函数,观察行为变化
  Week 5-8:从头设计任务(如转弯、爬坡)
  Week 9+:Sim-to-Real 部署实验

阶段 4:前沿研究(持续)

开始阅读和实现前沿论文:

  • World Models / DreamerV3:用于更高样本效率
  • Offline RL:利用真机历史数据
  • 多模态输入:视觉+本体感知的端到端策略
  • RLHF:人类反馈强化学习(LLM 对齐相关)
  • Foundation Models for Robotics:大模型赋能具身智能

成为顶级开发者的标志

技术广度:
  ✓ 能独立调试 PPO/SAC 训练失败的根本原因
  ✓ 能从 0 设计奖励函数让机器人完成新任务
  ✓ 能跨越 Sim-to-Real Gap,让策略在真机运行

技术深度:
  ✓ 能推导策略梯度定理、GAE、PPO-Clip
  ✓ 理解各算法在收敛性/样本效率/稳定性上的取舍
  ✓ 能阅读任何 RL 论文并在 1 周内复现核心结果

工程能力:
  ✓ 设计并发现高样本效率的奖励函数
  ✓ 用 Isaac Gym/Lab 设置大规模并行训练
  ✓ 在真机上完成端到端的 RL → 部署流程

附:学习资源汇总表

类型          资源                              链接
─────────────────────────────────────────────────────────────
教材          Sutton & Barto(免费)            incompleteideas.net/book
教材          CS285 课件(年年更新)             rail.eecs.berkeley.edu/deeprlcourse
视频          David Silver UCL Course           YouTube: David Silver RL
视频          CS285 Berkeley                   YouTube: CS285 2023
代码          CleanRL(入门最佳)                github.com/vwxyzjn/cleanrl
代码          Stable-Baselines3                 github.com/DLR-RM/stable-baselines3
机器人        legged_gym(腿足标准)             github.com/leggedrobotics/legged_gym
机器人        IsaacLab(NVIDIA 官方)            github.com/isaac-sim/IsaacLab
机器人        unitree_rl_gym(G1/H1)           github.com/unitreerobotics/unitree_rl_gym
论文检索      arXiv cs.LG + cs.RO              arxiv.org
论文过滤      arxiv-sanity                     arxiv-sanity.com
社区          r/reinforcementlearning          reddit.com/r/reinforcementlearning

结语

强化学习是目前机器人具身智能领域最核心的使能技术。你从 SLAM 工程师的视角进入这个领域,拥有两大天然优势:

  1. 概率思维:SLAM 中的贝叶斯滤波、不确定性建模——这些直接映射到 RL 的状态估计和策略不确定性
  2. 工程直觉:机器人运动学/动力学的感性认识,让你在设计奖励函数和理解 Sim-to-Real 时比纯 ML 工程师快很多

这个领域发展极快。2020 年能让四足机器人稳定奔跑的技术,今天已经能让人形机器人做复杂动作。当你读到这里,可能 DreamerV4 或者 PPO 的某种继任者已经出现了。

学习建议:理论和工程永远结合。公式推导过了,就去跑代码;代码跑出问题,就回来查数学。这个循环做几次,你就会发现自己的理解在质变。


延伸阅读


强化学习教程 © 2026 | 基于强化学习的人形机器人行走控制

This site uses Just the Docs, a documentation theme for Jekyll.