强化学习精要-第二部分-蒙特卡罗、TD、DQN-CSDN博客

网站介绍：文章浏览阅读1k次。蒙特卡罗法之前我们讲过使用策略迭代、价值迭代和泛化迭代，但是算法的前提是需要知道环境的状态转移概率，即对环境的运作方式十分清楚（Model-based Problem），故可以用动态规划这样的算法。但是很多时候，环境是未知的，不知道状态转移概率，故不能使用BELLMAN EQUATION对值函数进行更新υπ(st)=∑atπ(at∣st)∑st+1p(st+1∣st,at)[rt+1+υπ(..._强化学习精要