这部分内容,由于所看书籍的精彩易懂的讲解,所以将图片放入:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
策略梯度的两种理解:

  1. 策略梯度在经过图3.9之后,不需要像3.6, 3.7那样求贝尔曼方程,而是直接到达表3.8,然后找出新的策略,与随机策略进行比较,然后更新。

  2. 策略梯度在进行随机化策略 (A->0, B->1, C->0) 之后,根据表3.5计算出来Q(A,0),Q(B,1),Q(C,0)来到达表3.9,判断3.9与初始的表之差是否在阈值之内,如果不在,按照策略 (A->0, B->1, C->0),根据表3.5计算Q(A,0),Q(B,1),Q(C,0)生成新的值表,再进行判断。当条件满足的时候,到达表3.8,找到新的策略。当策略不发生变化时,即为最优策略。

第一种理解是根据上图的字面意思,第二种理解是根据程序。目前比较赞成第二种理解方法。

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐