强化学习精要-第二部分-蒙特卡罗、TD、DQN-CSDN博客

网站介绍:文章浏览阅读1k次。蒙特卡罗法之前我们讲过使用策略迭代、价值迭代和泛化迭代,但是算法的前提是需要知道环境的状态转移概率,即对环境的运作方式十分清楚(Model-based Problem),故可以用动态规划这样的算法。但是很多时候,环境是未知的,不知道状态转移概率,故不能使用BELLMAN EQUATION对值函数进行更新υπ(st)=∑atπ(at∣st)∑st+1p(st+1∣st,at)[rt+1+υπ(..._强化学习精要