AlphaGo

计算机博弈
早期：博弈树浅层遍历+局面评估函数
遍历最终状态的博弈树
1 选择马鞍点：矮子里面挑高人，博弈论
2 按照胜率决定走子

中期：蒙特卡洛树搜索
Pachi：

目前：
AlphaGo：卷积神经网络+ 蒙特卡洛树搜索
蒙特卡罗方法：

网络结构

输入

策略网络的输入是由48个特征平面组成的19x19x48的图像堆，第1个隐藏层使用零填充将输入变成23x23，然后使用k个大小为5x5，步长为1的卷积核对输入图像进行卷积，并应用ReLu 非线性函数。随后的第2层隐藏层到第12层隐藏层分别对前面的隐藏层进行零填充至21x21，然后使用k个大小为3x3，步长为1的卷积核做卷积。最后一层使用1个大小为1x1，步长为1的filter进行卷积，并对每个位置做不同的偏置，然后应用softmax函数。AlphaGo最合适的版本是k=192。