目标:读完本章,你能用一句话向非技术人员解释强化学习,也能向技术同行解释它与监督学习的本质区别,并在脑海中构建起整个 RL 知识体系的骨架。


1.1 三种机器学习范式的对比

机器学习通常被分成三大范式。理解它们的边界,是定位强化学习的第一步。

监督学习(Supervised Learning)

有人提前标好了答案。模型从 (输入, 标签) 对中学习映射关系。

训练数据:[(图片₁, "猫"), (图片₂, "狗"), ...]
目标:最小化预测与标签之间的误差

本质:拟合一个静态的映射函数 $f: X \rightarrow Y$,数据独立同分布(i.i.d.)。

无监督学习(Unsupervised Learning)

没有标签,让模型自己发现数据的结构——聚类、降维、生成模型都属此类。

强化学习(Reinforcement Learning)

没有标签,但有反馈。 智能体(Agent)通过与环境不断交互,根据奖励信号来学习策略。

没有人告诉你"第3步应该抬左脚"
但摔倒了扣分,走稳了加分
你自己摸索出走路的策略

三者的核心差异一目了然:

┌─────────────────────────────────────────────────────┐
│           三种机器学习范式对比                         │
├──────────────┬──────────────────┬────────────────────┤
│              │   数据来源        │   学习信号          │
├──────────────┼──────────────────┼────────────────────┤
│ 监督学习      │ 静态标注数据集    │ 精确误差(标签)     │
│ 无监督学习    │ 静态无标签数据集  │ 无外部信号           │
│ 强化学习      │ 交互产生(在线)  │ 延迟奖励(稀疏)     │
└──────────────┴──────────────────┴────────────────────┘

关键洞察:强化学习中,数据不是预先给定的,而是智能体自己探索产生的。这带来了监督学习中没有的两个核心挑战:探索-利用权衡延迟奖励归因

Three ML Paradigms: data flow and learning signals compared side-by-side


1.2 强化学习的核心要素

强化学习有一套标准术语,请先记住这张图,本教程后面所有内容都在它上面展开。

                    ┌─────────────────────────────┐
                    │                             │
          ┌─────────┤       E N V I R O N M E N T │
          │  reward │                             │
          │  state  └─────────────────────────────┘
          │                        ▲
          ▼                        │ action
   ┌─────────────┐                 │
   │             │─────────────────┘
   │    AGENT    │
   │  (策略 π)   │
   └─────────────┘

Agent-Environment interaction loop: action, state, and reward signals animated

核心概念逐一拆解

Agent(智能体) 做决策的主体。可以是机器人、游戏角色、交易程序——任何”行动者”。

Environment(环境) Agent 以外的一切。它接受 Agent 的 action,返回新的 state 和 reward。

State $s$(状态) 对当前世界的描述。对机器人而言,可能是关节角度、角速度、IMU 读数。

Action $a$(动作) Agent 能做的操作。对机器人行走,是各关节的力矩指令。

Reward $r$(奖励) 环境给 Agent 的即时反馈信号——一个标量。奖励函数的设计是 RL 工程的核心难题之一。

Policy $\pi$(策略) Agent 的行为规则:给定状态 $s$,输出动作 $a$。

\[\pi(a | s) = P(\text{动作}=a \mid \text{状态}=s)\]

这就是 RL 要学的东西——一个好的策略 $\pi^*$。

Trajectory(轨迹) 一次完整交互的记录序列:

\[\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \ldots, s_T)\]

1.3 一个具体例子:机器人学走路发生了什么

我们用人形机器人行走作为贯穿全书的例子,把抽象概念落地。

sequenceDiagram
    participant A as Agent(控制器)
    participant E as Environment(仿真器/真机)

    Note over A,E: 时刻 t=0,机器人站立
    E->>A: s₀ = [关节角度, 角速度, IMU姿态, 脚接触]
    A->>E: a₀ = [各关节目标力矩]
    E->>A: r₀ = +0.3(前进了3cm), s₁
    
    Note over A,E: 时刻 t=1
    E->>A: s₁ = [新的关节状态...]
    A->>E: a₁ = [...]
    E->>A: r₁ = -10(摔倒!), s₂=reset

    Note over A,E: Episode 结束,从积累的经验中学习
    Note over A: 更新策略 π,下次别这样走

奖励函数设计示例(第12章详述):

r = + 1.0 × 前进速度
  - 0.5 × 偏航角误差
  - 0.1 × 关节力矩大小(鼓励省力)
  - 10.0 × 摔倒惩罚(终止 episode)

没有人告诉机器人”膝盖应该弯多少度”,它通过数百万次跌倒与尝试,自己发现了稳健的步态。


1.4 强化学习能解决哪类问题

适合 RL 的场景

✓ 有明确的目标(可量化为奖励)
✓ 决策是序列性的(当前选择影响未来)
✓ 环境可以被交互(仿真或真实)
✓ 最优策略很难被人类直接指定

经典应用:

领域 例子 奖励
游戏 Atari、围棋(AlphaGo) 得分/胜负
机器人 行走、操作、抓取 任务完成度
自然语言 RLHF 微调 LLM 人类偏好评分
推荐系统 信息流排序 点击/留存
自动驾驶 轨迹规划 安全+效率

RL 的局限(别被过度鼓吹误导)

✗ 样本效率极低:需要大量交互数据(vs 监督学习几千张图)
✗ 奖励函数难设计:稀疏奖励会导致学习困难
✗ 训练不稳定:超参敏感,随机性强
✗ Sim-to-Real Gap:仿真学到的策略在真机上可能失效
✗ 不可解释:黑盒策略,出了问题难排查

1.5 与 SLAM 的类比:两个视角看”状态估计”

你已经熟悉 SLAM,我们用它建立直觉。

┌──────────────────────────────────────────────────────┐
│                SLAM vs 强化学习                        │
├───────────────────┬──────────────────────────────────┤
│       SLAM        │        强化学习                    │
├───────────────────┼──────────────────────────────────┤
│ 目标:估计位姿      │ 目标:学习最优策略                 │
│ 输入:传感器观测    │ 输入:环境状态                     │
│ 输出:地图+轨迹    │ 输出:动作序列                     │
│ 先验:运动/观测模型 │ 先验:环境动力学(有时未知)          │
│ 优化:最小化重投影误差│ 优化:最大化累积奖励              │
│ 评估:ATE / RPE   │ 评估:Episode Return              │
├───────────────────┼──────────────────────────────────┤
│ 粒子滤波:维护多假设 │ 策略:维护动作概率分布             │
│ 回环检测:长期记忆  │ 值函数:长期回报的预估             │
│ 位姿图优化:批量修正│ 经验回放:从历史数据批量学习        │
└───────────────────┴──────────────────────────────────┘

深层类比:贝叶斯滤波在 SLAM 中递归估计 $P(\text{位姿} \vert \text{观测})$,RL 中的策略也是对不确定性下决策的一种概率描述 $\pi(a \vert s)$。两者都在不确定性中寻找最优估计/决策


1.6 强化学习发展简史

理解历史,就理解了为什么现在的算法长这样。

1950s-70s  ──── 理论萌芽
               Bellman 提出动态规划(1957)
               Minsky 等奠基控制论

1980s-90s  ──── 经典 RL 成形
               Sutton 提出 TD 学习(1988)
               Watkins 提出 Q-Learning(1989)
               TD-Gammon:RL 下西洋双陆棋达人类水平(1992)

2013-2015  ──── 深度 RL 爆发
               DeepMind DQN:Atari 游戏超越人类(2013/2015)
               "深度强化学习"概念确立

2016-2017  ──── 围棋突破
               AlphaGo 击败李世石(2016)
               A3C、TRPO、PPO 等现代算法发布

2018-2020  ──── 机器人落地
               OpenAI Dota2(2018)
               OpenAI 机械手魔方(2019)
               ETH Zurich:四足机器人 ANYmal 习得运动(2019)

2021-2024  ──── RLHF + 具身智能
               InstructGPT / ChatGPT:RLHF 对齐 LLM(2022)
               Unitree / Boston Dynamics:人形机器人行走 RL 落地
               Isaac Lab:GPU 并行仿真大规模 RL

为什么 2013 年是分水岭? DQN 首次将深度神经网络与 Q-Learning 结合,解决了”状态空间太大,查表不现实”的问题,打开了 RL 解决真实世界复杂问题的大门。


本章小结

强化学习 = 序列决策 + 试错学习 + 延迟奖励优化

核心循环:Agent 观测状态 → 执行动作 → 获得奖励 → 更新策略

与监督学习最大的区别:
  1. 数据不是静态给定的,是 Agent 自己探索产生的
  2. 没有直接的"正确答案",只有好坏反馈
  3. 当前动作影响未来状态(时序相关性)

下一章 我们将梳理你需要掌握的数学工具,帮你快速把已知的 SLAM 数学知识迁移到 RL 框架中。


延伸阅读

  • Sutton & Barto, Reinforcement Learning: An Introduction (2nd Ed.), Chapter 1 — 免费在线版
  • David Silver UCL RL Course, Lecture 1 — YouTube
  • DeepMind DQN 原始论文:Playing Atari with Deep Reinforcement Learning (2013) — arXiv:1312.5602

强化学习教程 © 2026 | 基于强化学习的人形机器人行走控制

This site uses Just the Docs, a documentation theme for Jekyll.