强化学习导论 | 第六章 时序差分方法_时序差分法中预测与评估是什么关系-CSDN博客

网站介绍:文章浏览阅读524次。前面讲到的动态规划方法和蒙特卡洛方法都可以用来计算价值函数。动态规划方法是model-based的,需要知道状态的转换概率,某个状态的价值是根据其后续的状态价值计算的;蒙特卡洛方法是model-free的,不需要知道状态的转换概率,某个状态的价值是根据从该状态开始到轨迹结束的折扣奖励来计算的。本章的时序差分方法是对动态规划方法和蒙特卡洛方法的结合,跟蒙特卡洛方法一样,也是根据经验来学习,而不需要知..._时序差分法中预测与评估是什么关系