• 学习《强化学习的数学原理》

学习《强化学习》,以 B站教程为主,共 11 课时,加上扩展学习的需求,每日计划约 1.5h 用于学习,每两天学 1 个课时,每周学习五天周末两天为机动时间。

强化学习课程学习计划(2026年4月20日起)

日期星期学习内容备注实际进度反馈记录
2026-04-20L0: Overview of Reinforcement Learning in 30 Minutes第1课时 Day 1
2026-04-21L0: Overview of Reinforcement Learning in 30 Minutes第1课时 Day 2
2026-04-22L1: Basic Concepts (P1 & P2)第2课时 Day 1
2026-04-23L1: Basic Concepts (P1 & P2)第2课时 Day 2
2026-04-24L2: Bellman Equation (P1–P5)第3课时 Day 1
2026-04-25——机动/复习
2026-04-26——机动/复习
2026-04-27L2: Bellman Equation (P1–P5)第3课时 Day 2
2026-04-28L3: Bellman Optimality Equation (P1–P4)第4课时 Day 1
2026-04-29L3: Bellman Optimality Equation (P1–P4)第4课时 Day 2
2026-04-30L4: Value Iteration and Policy Iteration (P1–P3)第5课时 Day 1
2026-05-01L4: Value Iteration and Policy Iteration (P1–P3)第5课时 Day 2
2026-05-02——机动/复习
2026-05-03——机动/复习
2026-05-04L5: Monte Carlo Learning (P1–P6)第6课时 Day 1
2026-05-05L5: Monte Carlo Learning (P1–P6)第6课时 Day 2
2026-05-06L6: Stochastic Approximation and SGD (P1–P7)第7课时 Day 1
2026-05-07L6: Stochastic Approximation and SGD (P1–P7)第7课时 Day 2
2026-05-08L7: Temporal-Difference Learning (P1–P8)第8课时 Day 1
2026-05-09——机动/复习
2026-05-10——机动/复习
2026-05-11L7: Temporal-Difference Learning (P1–P8)第8课时 Day 2
2026-05-12L8: Value Function Approximation (P1–P8)第9课时 Day 1
2026-05-13L8: Value Function Approximation (P1–P8)第9课时 Day 2
2026-05-14L9: Policy Gradient Methods (P1–P5)第10课时 Day 1
2026-05-15L9: Policy Gradient Methods (P1–P5)第10课时 Day 2
2026-05-16——机动/复习
2026-05-17——机动/复习
2026-05-18L10: Actor-Critic Methods (P1–P5)第11课时 Day 1
2026-05-19L10: Actor-Critic Methods (P1–P5)第11课时 Day 2

总计:11个课时,覆盖约5周(含4个完整周末)。

建议

  • 每日学习时间控制在1.5小时左右,可拆分为两个45分钟段;
  • 周末可用于回顾本周内容、完成练习题或查阅扩展资料;
  • 若某日进度提前完成,可将后续内容前移,保持节奏灵活。