强化学习（第二版）笔记——第六章时序差分学习_时序预测强化学习-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读635次。参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第六章时序差分学习 Temporal-Difference Learning TD1. 时序差分学习在强化学习中的应用2 时序差分预测1. 时序差分学习在强化学习中的应用在强化学习所有的思想中，时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。与蒙特卡洛方法一致，时序差分方法也可以直接从与环境互动的经验中学习策略，而不需要构建关于环境动态特性的_时序预测强化学习

链接地址：https://blog.csdn.net/weixin_38886470/article/details/121605200
链接标题：强化学习（第二版）笔记——第六章时序差分学习_时序预测强化学习-CSDN博客
所属网站：blog.csdn.net
被收藏次数：4438
网站标签：时序预测强化学习

分享到各大网站