强化学习(第二版)笔记——第六章 时序差分学习_时序预测 强化学习-CSDN博客

网站介绍:文章浏览阅读635次。参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第六章时序差分学习 Temporal-Difference Learning TD1. 时序差分学习在强化学习中的应用2 时序差分预测1. 时序差分学习在强化学习中的应用在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。与蒙特卡洛方法一致,时序差分方法也可以直接从与环境互动的经验中学习策略,而不需要构建关于环境动态特性的_时序预测 强化学习