s***u 发帖数: 80 | 1 为什么前三局表现强悍的ALPHAGO这一次会出现这么大的毛病?
从原理上讲,蒙特卡洛算法考虑下哪一手棋,要进行数百万次的仿真,其实质是每一次
仿真相当于投入一个单位的计算资源(把当前局面从头仿真到棋局结束),从无比庞大
的对局博弈树中索取回一点点信息。其控制过程保证了这次投入仿真的路径是最有希望
获得有价值信息的。(控制过程的细节就不讲了,但是基本思路是下一次再仿真时候选
择的路径和前面仿真得到的胜负信息和招法信息是非常相关的),所以不要以为选择哪
个路线仿真是完全随机的。
那为什么第78手棋以及后面的正确应手,在机器计算自己的第77、75、73乃至更早之前
的招法,没有给这条线路投入足够多的计算量?
第一种可能,蒙特卡洛算法本身就有一定的随机性,在局面复杂,招法线路非常隐蔽的
条件下,可能就会被别的线路所淹没,需要收敛到正确招法上的仿真次数远远大于数百
万次。但是我认为这不是主要原因,因为就ALPHAGO前面几局表现出来的能力,我估计这
个计算在他的能力范围之内。当然我也不能完全肯定,因为78手的情况比较复杂,一是
位于棋盘中央,相比于边边角角,计算机学习的更少。二是78手的线路牵扯到一个可能
的劫和一个征子,从后面看来,计算机是有点晕头。(但如果真是三合一带来的问题,
那人类能复现的机率就更小了) |
n***i 发帖数: 4627 | 2 应该还是阿狗的评估体系对劫不能正确评估,这个里面讲的很清楚
http://mp.weixin.qq.com/s?__biz=MzI0MzA3OTI1MA==&mid=403616229&
【在 s***u 的大作中提到】 : 为什么前三局表现强悍的ALPHAGO这一次会出现这么大的毛病? : 从原理上讲,蒙特卡洛算法考虑下哪一手棋,要进行数百万次的仿真,其实质是每一次 : 仿真相当于投入一个单位的计算资源(把当前局面从头仿真到棋局结束),从无比庞大 : 的对局博弈树中索取回一点点信息。其控制过程保证了这次投入仿真的路径是最有希望 : 获得有价值信息的。(控制过程的细节就不讲了,但是基本思路是下一次再仿真时候选 : 择的路径和前面仿真得到的胜负信息和招法信息是非常相关的),所以不要以为选择哪 : 个路线仿真是完全随机的。 : 那为什么第78手棋以及后面的正确应手,在机器计算自己的第77、75、73乃至更早之前 : 的招法,没有给这条线路投入足够多的计算量? : 第一种可能,蒙特卡洛算法本身就有一定的随机性,在局面复杂,招法线路非常隐蔽的
|
g****y 发帖数: 2810 | 3 谷歌的人回去肯定要看狗的log
【在 s***u 的大作中提到】 : 为什么前三局表现强悍的ALPHAGO这一次会出现这么大的毛病? : 从原理上讲,蒙特卡洛算法考虑下哪一手棋,要进行数百万次的仿真,其实质是每一次 : 仿真相当于投入一个单位的计算资源(把当前局面从头仿真到棋局结束),从无比庞大 : 的对局博弈树中索取回一点点信息。其控制过程保证了这次投入仿真的路径是最有希望 : 获得有价值信息的。(控制过程的细节就不讲了,但是基本思路是下一次再仿真时候选 : 择的路径和前面仿真得到的胜负信息和招法信息是非常相关的),所以不要以为选择哪 : 个路线仿真是完全随机的。 : 那为什么第78手棋以及后面的正确应手,在机器计算自己的第77、75、73乃至更早之前 : 的招法,没有给这条线路投入足够多的计算量? : 第一种可能,蒙特卡洛算法本身就有一定的随机性,在局面复杂,招法线路非常隐蔽的
|
k*l 发帖数: 2574 | |