AlphaGo

计算机博弈
早期:博弈树浅层遍历+局面评估函数
遍历最终状态的博弈树
1 选择马鞍点:矮子里面挑高人,博弈论
2 按照胜率决定走子

中期:蒙特卡洛树搜索
Pachi:

目前:
AlphaGo:卷积神经网络+ 蒙特卡洛树搜索
蒙特卡罗方法:

网络结构

输入

策略网络的输入是由48个特征平面组成的19x19x48的图像堆,第1个隐藏层使用零填充将输入变成23x23,然后使用k个大小为5x5,步长为1的卷积核对输入图像进行卷积,并应用ReLu 非线性函数。随后的第2层隐藏层到第12层隐藏层分别对前面的隐藏层进行零填充至21x21,然后使用k个大小为3x3,步长为1的卷积核做卷积。最后一层使用1个大小为1x1,步长为1的filter进行卷积,并对每个位置做不同的偏置,然后应用softmax函数。AlphaGo最合适的版本是k=192。