Skip to main content

强化学习

本版块介绍强化学习相关的知识

第一阶段:基础概念与原理

  1. 什么是强化学习?与监督学习/无监督学习的区别
  2. 马尔可夫决策过程(MDP)
  3. 奖励函数、状态、动作、策略、价值函数等核心概念
  4. Bellman 方程(贝尔曼期望方程 & 最优方程)
  5. 策略 vs 值函数方法(policy-based vs value-based)

第二阶段:经典算法

  1. 动态规划:Policy Iteration & Value Iteration
  2. 蒙特卡洛方法(Monte Carlo)
  3. 时间差分方法(TD Learning)
  4. SARSA 与 Q-Learning

第三阶段:深度强化学习

  1. Deep Q-Network (DQN)
  2. Double DQN, Dueling DQN, Prioritized Experience Replay
  3. Policy Gradient 方法
  4. Actor-Critic 架构(A2C, A3C)
  5. PPO, TRPO 等策略优化算法

第四阶段:进阶与应用

  1. 多智能体强化学习(MARL)
  2. 模型预测与世界建模(Model-based RL)
  3. 分层强化学习(Hierarchical RL)
  4. 实践项目推荐(如 OpenAI Gym、Unity ML-Agents、MuJoCo)