Bellman方程求解
这部分内容,由于所看书籍的精彩易懂的讲解,所以将图片放入:
·
这部分内容,由于所看书籍的精彩易懂的讲解,所以将图片放入:
策略梯度的两种理解:
-
策略梯度在经过图3.9之后,不需要像3.6, 3.7那样求贝尔曼方程,而是直接到达表3.8,然后找出新的策略,与随机策略进行比较,然后更新。
-
策略梯度在进行随机化策略 (A->0, B->1, C->0) 之后,根据表3.5计算出来Q(A,0),Q(B,1),Q(C,0)来到达表3.9,判断3.9与初始的表之差是否在阈值之内,如果不在,按照策略 (A->0, B->1, C->0),根据表3.5计算Q(A,0),Q(B,1),Q(C,0)生成新的值表,再进行判断。当条件满足的时候,到达表3.8,找到新的策略。当策略不发生变化时,即为最优策略。
第一种理解是根据上图的字面意思,第二种理解是根据程序。目前比较赞成第二种理解方法。
更多推荐
已为社区贡献1条内容
所有评论(0)