强化学习第三四章 - LIN_KID - 博客园网友收藏

强化学习第三四章 - LIN_KID - 博客园

1、梯度下降选择固定步长可能产生的情况:收敛、发散、重复的在两个数之间跳跃 2、np.zeros_like(x) 生成一个shape和x一样的全为0的数组 3、plt.counter画等高线图 4、tensorflow的scope 变量命名空间 (1)若tf.Variable(初始值,name=&#...
阅读全文
强化学习第七章 - LIN_KID - 博客园网友收藏

强化学习第七章 - LIN_KID - 博客园

1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题 2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。 3、探索和利用,探......
阅读全文