摘要
1、围棋是一个MDPs问题
2、policy iteration如何求解MDPs问题?
3、WHAT and WHY is MonteCarlo method?
4、AlphaGo Zero的强化学习算法
前言
AlphaGo是GoogleDeepMind团队开发的一个基于深度神经网络的围棋人工智能程序,其一共经历了以下几次迭代[1]:

马尔可夫决策过程
1)状态集合
,包含MDPs可能处在的各个状态;
2)动作集合
,包含MDPs在各个状态上可采取的动作;
3)转换概率
,表示在状态
上采取动作
后,下一个状态的概率分布;
4)回报函数
,
表示状态
的回报。
在定义了以上几个要素之后,我们可以来描述一个典型的MDPs:从某个起始状开始,选择采取动作
,然后,以
的概率转换到下一个状态
,然后采取动作
,并以
的概率转换到下一个状态……
如果MDPs的状态集合和动作集合是有限大的,则称之为有限MDPs。
通常,我们还会定义另外一个参数——折扣因子(discountfactor)。定义折扣因子之后,MDPs的总回报可以表示为:
。
MDPs的核心问题是如何找到一个对所有状态都适用的最优策略,按照此策略来选择动作,使总回报的期望最大化。在总回报中加入折扣因子后,为使总回报的期望最大化,须尽可能的将正向回报提前,负向回报推迟。
回想一下围棋的对弈,起始状态是一个空的棋盘,棋手根据棋面(状态)选择落子点(动作)后,转换到下一个状态(转换概率为:其中一个状态的概率为1,其他状态的概率为0),局势的优劣是每个状态的回报。棋手需要根据棋面选择合适落子点,建立优势并最终赢下游戏,因此,围棋可以看作是一个MDPs问题。(达观数据)