[归纳]强化学习导论 - 第六章:时间差分学习-CSDN博客

网站介绍:文章浏览阅读1k次,点赞4次,收藏6次。文章目录本章内容概要TD PredictionAdvantages of TD Prediction MethodsOptimality of TD(0)Sarsa: On-policy TD ControlQ-learning: Off-policy TD ControlExpected SarsaMaximization Bias and Double Learning参考文献本章内容概要..._时间差分学习