学习《强化学习》
- 学习《强化学习的数学原理》
学习《强化学习》,以 B站教程为主,共 11 课时,加上扩展学习的需求,每日计划约 1.5h 用于学习,每两天学 1 个课时,每周学习五天周末两天为机动时间。
强化学习课程学习计划(2026年4月20日起)
| 日期 | 星期 | 学习内容 | 备注 | 实际进度反馈记录 |
|---|---|---|---|---|
| 2026-04-20 | 一 | L0: Overview of Reinforcement Learning in 30 Minutes | 第1课时 Day 1 | |
| 2026-04-21 | 二 | L0: Overview of Reinforcement Learning in 30 Minutes | 第1课时 Day 2 | |
| 2026-04-22 | 三 | L1: Basic Concepts (P1 & P2) | 第2课时 Day 1 | |
| 2026-04-23 | 四 | L1: Basic Concepts (P1 & P2) | 第2课时 Day 2 | |
| 2026-04-24 | 五 | L2: Bellman Equation (P1–P5) | 第3课时 Day 1 | |
| 2026-04-25 | 六 | —— | 机动/复习 | |
| 2026-04-26 | 日 | —— | 机动/复习 | |
| 2026-04-27 | 一 | L2: Bellman Equation (P1–P5) | 第3课时 Day 2 | |
| 2026-04-28 | 二 | L3: Bellman Optimality Equation (P1–P4) | 第4课时 Day 1 | |
| 2026-04-29 | 三 | L3: Bellman Optimality Equation (P1–P4) | 第4课时 Day 2 | |
| 2026-04-30 | 四 | L4: Value Iteration and Policy Iteration (P1–P3) | 第5课时 Day 1 | |
| 2026-05-01 | 五 | L4: Value Iteration and Policy Iteration (P1–P3) | 第5课时 Day 2 | |
| 2026-05-02 | 六 | —— | 机动/复习 | |
| 2026-05-03 | 日 | —— | 机动/复习 | |
| 2026-05-04 | 一 | L5: Monte Carlo Learning (P1–P6) | 第6课时 Day 1 | |
| 2026-05-05 | 二 | L5: Monte Carlo Learning (P1–P6) | 第6课时 Day 2 | |
| 2026-05-06 | 三 | L6: Stochastic Approximation and SGD (P1–P7) | 第7课时 Day 1 | |
| 2026-05-07 | 四 | L6: Stochastic Approximation and SGD (P1–P7) | 第7课时 Day 2 | |
| 2026-05-08 | 五 | L7: Temporal-Difference Learning (P1–P8) | 第8课时 Day 1 | |
| 2026-05-09 | 六 | —— | 机动/复习 | |
| 2026-05-10 | 日 | —— | 机动/复习 | |
| 2026-05-11 | 一 | L7: Temporal-Difference Learning (P1–P8) | 第8课时 Day 2 | |
| 2026-05-12 | 二 | L8: Value Function Approximation (P1–P8) | 第9课时 Day 1 | |
| 2026-05-13 | 三 | L8: Value Function Approximation (P1–P8) | 第9课时 Day 2 | |
| 2026-05-14 | 四 | L9: Policy Gradient Methods (P1–P5) | 第10课时 Day 1 | |
| 2026-05-15 | 五 | L9: Policy Gradient Methods (P1–P5) | 第10课时 Day 2 | |
| 2026-05-16 | 六 | —— | 机动/复习 | |
| 2026-05-17 | 日 | —— | 机动/复习 | |
| 2026-05-18 | 一 | L10: Actor-Critic Methods (P1–P5) | 第11课时 Day 1 | |
| 2026-05-19 | 二 | L10: Actor-Critic Methods (P1–P5) | 第11课时 Day 2 |
总计:11个课时,覆盖约5周(含4个完整周末)。
建议:
- 每日学习时间控制在1.5小时左右,可拆分为两个45分钟段;
- 周末可用于回顾本周内容、完成练习题或查阅扩展资料;
- 若某日进度提前完成,可将后续内容前移,保持节奏灵活。