《强化学习》第五章 蒙特卡洛方法_蒙特卡罗强化学习 指派问题-CSDN博客

网站介绍:文章浏览阅读5.5k次,点赞5次,收藏23次。第五章 蒙特卡洛方法文章目录第五章 蒙特卡洛方法5.1 蒙特卡洛预测例5.1 二十一点练习 5.1练习5.2例5.2 肥皂泡5.2 动作价值的蒙特卡洛估计练习5.35.3 蒙特卡洛控制练习5.4例5.3 解决二十一点问题5.4 没有试探性出发假设的蒙特卡洛控制5.5 基于重要度采样的离轨策略练习5.5例5.4 对二十一点游戏中的状态值的离轨策略估计例5.5 无穷方差练习 5.6练习5.7练习5.85.6 增量式实现练习5.9练习5.105.7 离轨策略蒙特卡洛控制练习5.11练习5.12(编程)*折扣敏感_蒙特卡罗强化学习 指派问题