强化学习
本版块介绍强化学习相关的知识
第一阶段:基础概念与 原理
- 什么是强化学习?与监督学习/无监督学习的区别
- 马尔可夫决策过程(MDP)
- 奖励函数、状态、动作、策略、价值函数等核心概念
- Bellman 方程(贝尔曼期望方程 & 最优方程)
- 策略 vs 值函数方法(policy-based vs value-based)
第二阶段:经典算法
- 动态规划:Policy Iteration & Value Iteration
- 蒙特卡洛方法(Monte Carlo)
- 时间差分方法(TD Learning)
- SARSA 与 Q-Learning
第三阶段:深度强化学习
- Deep Q-Network (DQN)
- Double DQN, Dueling DQN, Prioritized Experience Replay
- Policy Gradient 方法
- Actor-Critic 架构(A2C, A3C)
- PPO, TRPO 等策略优化算法
第四阶段:进阶与应用
- 多智能体强化学习(MARL)
- 模型预测与世界建模(Model-based RL)
- 分层强化学习(Hierarchical RL)
- 实践项目推荐(如 OpenAI Gym、Unity ML-Agents、MuJoCo)