学习《强化学习》

2026-04-20 read the source issue

学习《强化学习的数学原理》

学习《强化学习》，以 B站教程为主，共 11 课时，加上扩展学习的需求，每日计划约 1.5h 用于学习，每两天学 1 个课时，每周学习五天周末两天为机动时间。

强化学习课程学习计划（2026年4月20日起）

日期	星期	学习内容	备注
2026-04-20	一	L0: Overview of Reinforcement Learning in 30 Minutes	第1课时 Day 1
2026-04-21	二	L0: Overview of Reinforcement Learning in 30 Minutes	第1课时 Day 2
2026-04-22	三	L1: Basic Concepts (P1 & P2)	第2课时 Day 1
2026-04-23	四	L1: Basic Concepts (P1 & P2)	第2课时 Day 2
2026-04-24	五	L2: Bellman Equation (P1–P5)	第3课时 Day 1
2026-04-25	六	——	机动/复习
2026-04-26	日	——	机动/复习
2026-04-27	一	L2: Bellman Equation (P1–P5)	第3课时 Day 2
2026-04-28	二	L3: Bellman Optimality Equation (P1–P4)	第4课时 Day 1
2026-04-29	三	L3: Bellman Optimality Equation (P1–P4)	第4课时 Day 2
2026-04-30	四	L4: Value Iteration and Policy Iteration (P1–P3)	第5课时 Day 1
2026-05-01	五	L4: Value Iteration and Policy Iteration (P1–P3)	第5课时 Day 2
2026-05-02	六	——	机动/复习
2026-05-03	日	——	机动/复习
2026-05-04	一	L5: Monte Carlo Learning (P1–P6)	第6课时 Day 1
2026-05-05	二	L5: Monte Carlo Learning (P1–P6)	第6课时 Day 2
2026-05-06	三	L6: Stochastic Approximation and SGD (P1–P7)	第7课时 Day 1
2026-05-07	四	L6: Stochastic Approximation and SGD (P1–P7)	第7课时 Day 2
2026-05-08	五	L7: Temporal-Difference Learning (P1–P8)	第8课时 Day 1
2026-05-09	六	——	机动/复习
2026-05-10	日	——	机动/复习
2026-05-11	一	L7: Temporal-Difference Learning (P1–P8)	第8课时 Day 2
2026-05-12	二	L8: Value Function Approximation (P1–P8)	第9课时 Day 1
2026-05-13	三	L8: Value Function Approximation (P1–P8)	第9课时 Day 2
2026-05-14	四	L9: Policy Gradient Methods (P1–P5)	第10课时 Day 1
2026-05-15	五	L9: Policy Gradient Methods (P1–P5)	第10课时 Day 2
2026-05-16	六	——	机动/复习
2026-05-17	日	——	机动/复习
2026-05-18	一	L10: Actor-Critic Methods (P1–P5)	第11课时 Day 1
2026-05-19	二	L10: Actor-Critic Methods (P1–P5)	第11课时 Day 2

总计：11个课时，覆盖约5周（含4个完整周末）。

建议：

每日学习时间控制在1.5小时左右，可拆分为两个45分钟段；

周末可用于回顾本周内容、完成练习题或查阅扩展资料；

若某日进度提前完成，可将后续内容前移，保持节奏灵活。