强化学习之Q-Learing基础_部分可观测的马尔可夫决策例题-CSDN博客

网站介绍:文章浏览阅读1k次。强化学习之Q-Learing基础文章目录强化学习之Q-Learing基础马尔可夫决策过程MDP1)部分可观察马尔可夫决策过程POMDPs2)Markov Games:总结强化学习之Q-Learning马尔可夫决策过程MDPMDP 是一个离散时间随机控制过程。MDP提供了用于建模决策问题的数学框架,在该决策中,结果是部分随机的,并且受决策者或代理商的控制。MDP对于研究可以通过动态编程和强化学习技术解决的优化问题很有用。通常MDP可以用这样的元组来定义:(S,A,p,r)(S,A,p,r)(S,A_部分可观测的马尔可夫决策例题