![强化学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/245/34233245/b_34233245.jpg)
上QQ阅读APP看书,第一时间看更新
3.2 策略评估
策略评估要解决问题是,给定一个策略π,如何计算在该策略下的值函数Vπ。
因为实际中涉及的马尔可夫模型规模一般比较大,直接求解效率低,因此可使用迭代法进行求解。考虑应用贝尔曼(Bellman)期望方程进行迭代,公式如下:
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P57_20810.jpg?sign=1738925179-LH7HTCYzh2oDJZYuBPvDfkDQ2N0rf6Ap-0-84c5e78c623ef3b169d80f5084dcf537)
可见,状态s处的值函数Vπ(s),可以利用后继状态s'的值函数Vπ(s')来表示,依此类推,这种求取值函数的方法称为自举法(Bootstrapping)。
如图3-1所示,初始所有状态值函数全部为0。第k+1次迭代求解Vπ(s)时,使用第k次计算出来的值函数Vk(s')更新计算Vk+1(s)。迭代时使用的公式如下:
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P57_20812.jpg?sign=1738925179-ZoimpEHjRSXMNh79lqA1TRGIt9tg806o-0-b420cd8f97816f23e14727fca9096489)
![](https://epubservercos.yuewen.com/C17FFE/18320967008553606/epubprivate/OEBPS/Images/Figure-P57_2818.jpg?sign=1738925179-Ci619MYGLGQbneDnHRozipltqptHbubk-0-5d288ba112b2ea8059d61455cae701d5)
图3-1 迭代法
对于模型已知的强化学习算法,上式中,、π(a|s)、
都是已知数,唯一的未知数是值函数,因此该方法通过反复迭代最终将收敛。