o*****p 发帖数: 2977 | 1 所以产生误解,以为你跟Alphgo下,它的胜率只会不断上升。
胜率是怎么算出来的?是从这一步快速走子,走一万盘,如果60%是赢的,40%是输的
,那么胜率是60%.
那么当它选择这一步的时候,你选择的是让他40%输的那个反应,那么它的下一步胜率
就多半会从60%下降。
然后你如果总能找到让它输的几率的那步棋走,那么它最后必输 --- 这就是想象中两
只完全相同的alphgo的下法,另一只狗算出相同的几率,它总选择对它最大,对对手最
小的几率。
先把这个概念搞清楚,你就知道,它下的不是神之一手,而是:当它有60%胜率的时候
,它有40%会输的一手 ---- 真正的神之一手是100%会赢的一手。所以只要知道Alphago
在很长的时间内几率还在50%,60%徘徊,而不是一手棋立刻胜率80%,90%,那它根本距
离神之一手还差得很远。
这个是基本的逻辑。大家理清这个逻辑以后再讨论。
既然它现在只有这个本事,那么开局它发现几率低于50%就很正常。这说明李世石在较
长时间内,经常的选择让它输的几率增加的选择。结果它判断胜率下降了。如果李世石
能坚持这么做,就能赢它。
所以柯洁觉得李世石走差了,他上有希望,从Alphago这个胜率透露出的信息,这不是
没有可能。 |
O**l 发帖数: 12923 | 2 你先得搞清楚min-max tree
在搞清楚 UCB |
o*****p 发帖数: 2977 | 3 。。。老虎机算法,蒙特卡洛剪纸的手段,提供有限选择。但这和胜率无关。胜率是
针对每一个选择,由快速走子来估计的。
我不认为我对胜率的理解有任何问题。
【在 O**l 的大作中提到】 : 你先得搞清楚min-max tree : 在搞清楚 UCB
|
O**l 发帖数: 12923 | 4 MCT 不是纯monte-carlo
是UCB guide的MC 建立在minimax tree上的
关键是UCB MC20年前就有没啥用
【在 o*****p 的大作中提到】 : 。。。老虎机算法,蒙特卡洛剪纸的手段,提供有限选择。但这和胜率无关。胜率是 : 针对每一个选择,由快速走子来估计的。 : 我不认为我对胜率的理解有任何问题。
|
o*****p 发帖数: 2977 | 5
老虎机算法,蒙特卡洛剪纸的手段,提供有限选择。但这和胜率无关。胜率是针对每一
个选择,由快速走子来估计的。
我不认为我对胜率的理解有任何问题。
【在 O**l 的大作中提到】 : MCT 不是纯monte-carlo : 是UCB guide的MC 建立在minimax tree上的 : 关键是UCB MC20年前就有没啥用
|
O**l 发帖数: 12923 | 6 你先把 UCB公式看一遍 就知道你错得离谱了
真要是A* 需要搞这么久 本科生就搞定了
【在 o*****p 的大作中提到】 : : 老虎机算法,蒙特卡洛剪纸的手段,提供有限选择。但这和胜率无关。胜率是针对每一 : 个选择,由快速走子来估计的。 : 我不认为我对胜率的理解有任何问题。
|
o*****p 发帖数: 2977 | 7 我知道,不就是log(x/n)什么么,x是胜率。先遍历一遍,然后胜的多走。本质没区
别。它的胜率 x 是由快速走子产生的。这个是它的本质。所以,你选择在它胜率中失
败的走法,它的下一步胜率就会下降 ---- 大体如此,细节不追究了。
【在 O**l 的大作中提到】 : 你先把 UCB公式看一遍 就知道你错得离谱了 : 真要是A* 需要搞这么久 本科生就搞定了
|
O**l 发帖数: 12923 | 8 没看到前面那项???
而且后面那项也不是胜的多走 正好相反
heuristic要是单纯胜的多走那是A*
还有要和minimax tree结合一下
【在 o*****p 的大作中提到】 : 我知道,不就是log(x/n)什么么,x是胜率。先遍历一遍,然后胜的多走。本质没区 : 别。它的胜率 x 是由快速走子产生的。这个是它的本质。所以,你选择在它胜率中失 : 败的走法,它的下一步胜率就会下降 ---- 大体如此,细节不追究了。
|
o*****p 发帖数: 2977 | 9 好了,我说错了,我想正确的说法是:我大体上是知道UCT的。我认为alpha说的胜率
只是它快速走子N盘以后的胜负比。
Alphago真牛到神之一手,那么一步棋下来,胜率立刻接近100%。或者和别人下几手
棋,胜率很快接近100% ---- Alphago的真实能力,可以判断为,它的胜率的收束速率。
它和李世石下,开始的时间,不但胜率没有从50%升高,还下降了,就说明李世石开始
的选择很不错,一直走在让它的胜率不增加的步上。这就界定了它的开局的能力没有我
们想象的那么牛。李世石是站在和它同一个数量级的水平上。
所以,柯洁不是没有一战之力。
【在 O**l 的大作中提到】 : 没看到前面那项??? : 而且后面那项也不是胜的多走 正好相反 : heuristic要是单纯胜的多走那是A* : 还有要和minimax tree结合一下
|
p********e 发帖数: 6030 | 10 下几步胜率就到80、90%,那不是牛,是设计这个棋的人是SB,而且几千年来反反复复
下这个棋的人更是大二傻子。
Alphago
【在 o*****p 的大作中提到】 : 好了,我说错了,我想正确的说法是:我大体上是知道UCT的。我认为alpha说的胜率 : 只是它快速走子N盘以后的胜负比。 : Alphago真牛到神之一手,那么一步棋下来,胜率立刻接近100%。或者和别人下几手 : 棋,胜率很快接近100% ---- Alphago的真实能力,可以判断为,它的胜率的收束速率。 : 它和李世石下,开始的时间,不但胜率没有从50%升高,还下降了,就说明李世石开始 : 的选择很不错,一直走在让它的胜率不增加的步上。这就界定了它的开局的能力没有我 : 们想象的那么牛。李世石是站在和它同一个数量级的水平上。 : 所以,柯洁不是没有一战之力。
|
|
|
O**l 发帖数: 12923 | 11 前面那项所有子节点的胜率的平均
每个子节点开始都是MC node在tree之外 怎么可能是100%??
率。
【在 o*****p 的大作中提到】 : 好了,我说错了,我想正确的说法是:我大体上是知道UCT的。我认为alpha说的胜率 : 只是它快速走子N盘以后的胜负比。 : Alphago真牛到神之一手,那么一步棋下来,胜率立刻接近100%。或者和别人下几手 : 棋,胜率很快接近100% ---- Alphago的真实能力,可以判断为,它的胜率的收束速率。 : 它和李世石下,开始的时间,不但胜率没有从50%升高,还下降了,就说明李世石开始 : 的选择很不错,一直走在让它的胜率不增加的步上。这就界定了它的开局的能力没有我 : 们想象的那么牛。李世石是站在和它同一个数量级的水平上。 : 所以,柯洁不是没有一战之力。
|
o*****p 发帖数: 2977 | 12 不用管UCT了。我说过这个和我们的讨论其实无关。
你就想象:在4x4棋盘上,肯定能找到一步100%的胜率的棋。如果计算机在4x4棋盘上
,一个子下来,胜率还是50%,肯定是笑话。胜率99%也是笑话。
所以真正的厉害的神之一手的软件,在4x4上胜率必然是100%。
胜率没到100%,就是它还没算到。
然后你演申到19x19。要是它下棋还是50%的胜率,只能说明离神之一手还差很远。
而你在一段时间内能每个落子让它保持在胜率50%左右,这就说明这段时间内你和它的
水平不相上下。
【在 O**l 的大作中提到】 : 前面那项所有子节点的胜率的平均 : 每个子节点开始都是MC node在tree之外 怎么可能是100%?? : : 率。
|
O**l 发帖数: 12923 | 13 那是A*
UCB 又不是胜率 就是因为不是胜率 100%的可能很小 本身也没有穷尽
200步取胜 逐渐converge 1步增加多少
谁有没说alphago搞出神之一手
【在 o*****p 的大作中提到】 : 不用管UCT了。我说过这个和我们的讨论其实无关。 : 你就想象:在4x4棋盘上,肯定能找到一步100%的胜率的棋。如果计算机在4x4棋盘上 : ,一个子下来,胜率还是50%,肯定是笑话。胜率99%也是笑话。 : 所以真正的厉害的神之一手的软件,在4x4上胜率必然是100%。 : 胜率没到100%,就是它还没算到。 : 然后你演申到19x19。要是它下棋还是50%的胜率,只能说明离神之一手还差很远。 : 而你在一段时间内能每个落子让它保持在胜率50%左右,这就说明这段时间内你和它的 : 水平不相上下。
|
o*****p 发帖数: 2977 | 14 这样,我的要点是这句话:你在一段时间内能每个落子让它保持在胜率50%左右,这就
说明这段时间内你和它的水平不相上下。
而根据谷歌的说明,李世石做到了这一点,所以这段时间内,李世石的水平是和
Alphago是不相上下的。而不是大家想象的,Alphago已经早已把通向胜负的道路铺通了
---- 那它判断出来的胜率,必然是大大的偏离50%.
【在 O**l 的大作中提到】 : 那是A* : UCB 又不是胜率 就是因为不是胜率 100%的可能很小 本身也没有穷尽 : 200步取胜 逐渐converge 1步增加多少 : 谁有没说alphago搞出神之一手
|
O**l 发帖数: 12923 | 15 问题是19*19不能MC到底啊 到一定程度就跳出来 用cnn估一个0-1的值
这个很难出个大概率
当然不可能中盘他就能converge出最优解
那等于解了围棋
【在 o*****p 的大作中提到】 : 这样,我的要点是这句话:你在一段时间内能每个落子让它保持在胜率50%左右,这就 : 说明这段时间内你和它的水平不相上下。 : 而根据谷歌的说明,李世石做到了这一点,所以这段时间内,李世石的水平是和 : Alphago是不相上下的。而不是大家想象的,Alphago已经早已把通向胜负的道路铺通了 : ---- 那它判断出来的胜率,必然是大大的偏离50%.
|
k*******r 发帖数: 355 | 16 "它和李世石下,开始的时间,不但胜率没有从50%升高,还下降了"
这个你怎么知道的,reference link在哪里? |
o*****p 发帖数: 2977 | 17 唉 :) 不要考虑细节。只需要考虑,两个完全相同的alphago对弈,对一个的胜率,就
是对另一个的失败率。只要它判断胜率一直在50%上下,你的水平就等于另一只alphago。
【在 O**l 的大作中提到】 : 问题是19*19不能MC到底啊 到一定程度就跳出来 用cnn估一个0-1的值 : 这个很难出个大概率 : 当然不可能中盘他就能converge出最优解 : 那等于解了围棋
|
o*****p 发帖数: 2977 | 18 这个好像是谷歌透露的,第二局。我在网上也看到了。大家帮我找找。
【在 k*******r 的大作中提到】 : "它和李世石下,开始的时间,不但胜率没有从50%升高,还下降了" : 这个你怎么知道的,reference link在哪里?
|
O**l 发帖数: 12923 | 19 并不一定50%左右是水平差不多
很有可能是盘面变复杂 导致UCT converge减速
或者对手走了一个minmax里面下一个不是他认为最优top几的 搜索树要重新展开
等复杂的局面再走几步 就能迅速converge
alphago。
【在 o*****p 的大作中提到】 : 这个好像是谷歌透露的,第二局。我在网上也看到了。大家帮我找找。
|
o*****p 发帖数: 2977 | 20 我只是说,开局的那段时间,只要它判断胜率是50%甚至以下,就说明它的对手这段时
间内水平和它相当 ---- 我们没有必要自己吓唬自己,以为它已经挖好了多大的一个坑。
我们要学习的,是当它判断它的胜率迅速上升的时候,那时候多半是我们的水平比它
低了。这时候要学习。
但开局一段时间,既然它判断胜负是50%,说明它的那些不同寻常的招发也没那么可怕
。人的招法不比它差。
【在 O**l 的大作中提到】 : 并不一定50%左右是水平差不多 : 很有可能是盘面变复杂 导致UCT converge减速 : 或者对手走了一个minmax里面下一个不是他认为最优top几的 搜索树要重新展开 : 等复杂的局面再走几步 就能迅速converge : : alphago。
|
|
|
O**l 发帖数: 12923 | 21 恩 不可能开局的时候把所以东西都想好了
那成solve围棋了
其实他只要走缓了 基本就是他认为优势了
UCT的特性就是 局势不好的时候 会走的非常的aggressive
局势不好的时候 他会找你出错可能最大的分支下
但是这两盘 还没看到
坑。
【在 o*****p 的大作中提到】 : 我只是说,开局的那段时间,只要它判断胜率是50%甚至以下,就说明它的对手这段时 : 间内水平和它相当 ---- 我们没有必要自己吓唬自己,以为它已经挖好了多大的一个坑。 : 我们要学习的,是当它判断它的胜率迅速上升的时候,那时候多半是我们的水平比它 : 低了。这时候要学习。 : 但开局一段时间,既然它判断胜负是50%,说明它的那些不同寻常的招发也没那么可怕 : 。人的招法不比它差。
|
o*****p 发帖数: 2977 | 22 现在我们找到了怎么从Alphago学围棋的方法:就是要求它同时公开每一步的胜率判断
。然后根据胜率的变化学习。
当它胜率没有多少变化的时候,我们没有必要自己吓唬自己。当它胜率增加的时候,
我们猜想它这一步很牛,或者我们这一步应对可能有问题。
【在 O**l 的大作中提到】 : 恩 不可能开局的时候把所以东西都想好了 : 那成solve围棋了 : 其实他只要走缓了 基本就是他认为优势了 : UCT的特性就是 局势不好的时候 会走的非常的aggressive : 局势不好的时候 他会找你出错可能最大的分支下 : 但是这两盘 还没看到 : : 坑。
|
d*******o 发帖数: 107 | 23 自己一个走子胜率60%的意思是:
这个走子的每个应对的下一个走子的胜率,所有这些胜率的最低值是60%
也就是说走了这步棋,下一步别人走的最好,自己还有60%胜率,别人走烂了,自己说
不准胜率就80%了
而不是你理解的走了这步棋,对方有40%的下法自己会输
所以alphago要犯错,只有2种情况
- value network估算出的胜率错了,以为自己有60%,实际只有30%
- policy network的下一步棋漏算了
Alphago
【在 o*****p 的大作中提到】 : 现在我们找到了怎么从Alphago学围棋的方法:就是要求它同时公开每一步的胜率判断 : 。然后根据胜率的变化学习。 : 当它胜率没有多少变化的时候,我们没有必要自己吓唬自己。当它胜率增加的时候, : 我们猜想它这一步很牛,或者我们这一步应对可能有问题。
|
D******n 发帖数: 2965 | 24 是你自己没理解。
胜率只是一个估计值,最开始的估计值方差大,而且受prior的影响大。譬如说,即使
真正的胜率一直是90%,开始时一样会估出40%甚至更低,只是一个方差很大的随机数而
已。只有精度到一定程度,估计出来的胜率才是有意义的.
坑。
【在 o*****p 的大作中提到】 : 现在我们找到了怎么从Alphago学围棋的方法:就是要求它同时公开每一步的胜率判断 : 。然后根据胜率的变化学习。 : 当它胜率没有多少变化的时候,我们没有必要自己吓唬自己。当它胜率增加的时候, : 我们猜想它这一步很牛,或者我们这一步应对可能有问题。
|
O**l 发帖数: 12923 | 25 恩 越到后半盘越不依赖value network 所以后半盘超强
那个policy network实在牛 不搜索 都能有kgs3d
所以alphago = 一个kgs3d业余棋手+zen
所以那个policy network学职业棋手反而不好 bias太大
其实开始学业余棋谱 以后自己的棋谱最好
【在 d*******o 的大作中提到】 : 自己一个走子胜率60%的意思是: : 这个走子的每个应对的下一个走子的胜率,所有这些胜率的最低值是60% : 也就是说走了这步棋,下一步别人走的最好,自己还有60%胜率,别人走烂了,自己说 : 不准胜率就80%了 : 而不是你理解的走了这步棋,对方有40%的下法自己会输 : 所以alphago要犯错,只有2种情况 : - value network估算出的胜率错了,以为自己有60%,实际只有30% : - policy network的下一步棋漏算了 : : Alphago
|
z***e 发帖数: 5600 | 26 alphago的胜率是假设同等水平棋手的。假设真是棋力13段吧,50对50是13段对13段,
对9段就高于50%
传闻Google内部员工可以看实时胜率,据说很长一段50以后很快跳到90,但网上职业棋
手很久以后才意识到白棋要输了
【在 o*****p 的大作中提到】 : 现在我们找到了怎么从Alphago学围棋的方法:就是要求它同时公开每一步的胜率判断 : 。然后根据胜率的变化学习。 : 当它胜率没有多少变化的时候,我们没有必要自己吓唬自己。当它胜率增加的时候, : 我们猜想它这一步很牛,或者我们这一步应对可能有问题。
|
o*****p 发帖数: 2977 | 27 你这个是蒙特卡洛剪纸估计出的胜率。而且这个胜率是根据经验做的估计。
事实上它还有快速走子估计的胜率。当然两者要结合起来判断。
总之,和上面这些话无关的是:李世石在开局的相当一段时间内,让Alphgo把胜率的
估计压缩到50%以下了,说明李世石这段时间的水平和Alphago不相上下。
这个是铁的逻辑。
【在 d*******o 的大作中提到】 : 自己一个走子胜率60%的意思是: : 这个走子的每个应对的下一个走子的胜率,所有这些胜率的最低值是60% : 也就是说走了这步棋,下一步别人走的最好,自己还有60%胜率,别人走烂了,自己说 : 不准胜率就80%了 : 而不是你理解的走了这步棋,对方有40%的下法自己会输 : 所以alphago要犯错,只有2种情况 : - value network估算出的胜率错了,以为自己有60%,实际只有30% : - policy network的下一步棋漏算了 : : Alphago
|
D******n 发帖数: 2965 | 28 所以一旦有计算能力更强的超级狗,啊而发狗就死定了,每步都被预测,而赢的运气全
部来自超级狗计算能力的缺陷。
【在 d*******o 的大作中提到】 : 自己一个走子胜率60%的意思是: : 这个走子的每个应对的下一个走子的胜率,所有这些胜率的最低值是60% : 也就是说走了这步棋,下一步别人走的最好,自己还有60%胜率,别人走烂了,自己说 : 不准胜率就80%了 : 而不是你理解的走了这步棋,对方有40%的下法自己会输 : 所以alphago要犯错,只有2种情况 : - value network估算出的胜率错了,以为自己有60%,实际只有30% : - policy network的下一步棋漏算了 : : Alphago
|
d*******o 发帖数: 107 | 29
这个数据的来历?你都说了铁的逻辑,拜托给个铁的证据
【在 o*****p 的大作中提到】 : 你这个是蒙特卡洛剪纸估计出的胜率。而且这个胜率是根据经验做的估计。 : 事实上它还有快速走子估计的胜率。当然两者要结合起来判断。 : 总之,和上面这些话无关的是:李世石在开局的相当一段时间内,让Alphgo把胜率的 : 估计压缩到50%以下了,说明李世石这段时间的水平和Alphago不相上下。 : 这个是铁的逻辑。
|
o*****p 发帖数: 2977 | 30 不管怎么说,李世石一段时间内让Alphago胜率打在50%以下,说明他这段时间的水平
是和
Alphago旗鼓相当。
当它“很快跳到90”的这个区间,是它的水平真的比人高的时候。
【在 z***e 的大作中提到】 : alphago的胜率是假设同等水平棋手的。假设真是棋力13段吧,50对50是13段对13段, : 对9段就高于50% : 传闻Google内部员工可以看实时胜率,据说很长一段50以后很快跳到90,但网上职业棋 : 手很久以后才意识到白棋要输了
|
|
|
q*c 发帖数: 9453 | 31 有后手铁幕原因。
第一盘狗后手,没 initial 贴纸,就一直领先。
坑。
【在 o*****p 的大作中提到】 : 不管怎么说,李世石一段时间内让Alphago胜率打在50%以下,说明他这段时间的水平 : 是和 : Alphago旗鼓相当。 : 当它“很快跳到90”的这个区间,是它的水平真的比人高的时候。
|
o*****p 发帖数: 2977 | 32 这个是在网上看到的。谷歌透露第二局,好像到中局之前,alphago一直判断自己的
胜率低于50%.
【在 d*******o 的大作中提到】 : : 这个数据的来历?你都说了铁的逻辑,拜托给个铁的证据
|
D******n 发帖数: 2965 | 33 从什么时候胜率上升可以推出来狗狗的计算能力,是吗?
【在 z***e 的大作中提到】 : alphago的胜率是假设同等水平棋手的。假设真是棋力13段吧,50对50是13段对13段, : 对9段就高于50% : 传闻Google内部员工可以看实时胜率,据说很长一段50以后很快跳到90,但网上职业棋 : 手很久以后才意识到白棋要输了
|
o*****p 发帖数: 2977 | 34 对,这个时候如果它的判断是对的话,那么说明对手走错了。
段,
业棋
【在 D******n 的大作中提到】 : 从什么时候胜率上升可以推出来狗狗的计算能力,是吗?
|
O**l 发帖数: 12923 | 35 我个人还是认为中盘局面很复杂
1 没有converge 2靠的是value network不是MC 所以不很准
【在 o*****p 的大作中提到】 : 对,这个时候如果它的判断是对的话,那么说明对手走错了。 : : 段, : 业棋
|
z***e 发帖数: 5600 | 36 不知道啊,我第一感觉是,什么时候上升说明哪步就是胜负手
【在 D******n 的大作中提到】 : 从什么时候胜率上升可以推出来狗狗的计算能力,是吗?
|
D******n 发帖数: 2965 | 37 嘿嘿,你根本就不懂我在说什么。
【在 o*****p 的大作中提到】 : 对,这个时候如果它的判断是对的话,那么说明对手走错了。 : : 段, : 业棋
|
z***e 发帖数: 5600 | 38 同意,或者说跳90时就是胜负手,
和强大的计算机下压力是很大的。计算机不会误算,不会一下子被扳倒,但人会,人一
旦出错就无法挽回
【在 o*****p 的大作中提到】 : 对,这个时候如果它的判断是对的话,那么说明对手走错了。 : : 段, : 业棋
|
D******n 发帖数: 2965 | 39 胜率是狗狗提供的胜率,也是对真实胜率的一个估计,也是狗狗计算能力的一个反应。
换句话说,即使狗狗已经领先来,但要狗狗自己意识到自己领先,还是需要一个过程的。
【在 O**l 的大作中提到】 : 我个人还是认为中盘局面很复杂 : 1 没有converge 2靠的是value network不是MC 所以不很准
|
o*****p 发帖数: 2977 | 40 这个得看它胜率如何。如果它说的胜率在50%上下变化不大。那也没什么。
【在 q*c 的大作中提到】 : 有后手铁幕原因。 : 第一盘狗后手,没 initial 贴纸,就一直领先。 : : 坑。
|
|
|
o*****p 发帖数: 2977 | 41 胡扯。你想象两只Alphago同时从这里开始下,你这个说法就是“一个狗已经领先了,
但还没有意识到自己领先”,“一个狗已经落后了,但还没有意识到自己落后”
的。
【在 D******n 的大作中提到】 : 胜率是狗狗提供的胜率,也是对真实胜率的一个估计,也是狗狗计算能力的一个反应。 : 换句话说,即使狗狗已经领先来,但要狗狗自己意识到自己领先,还是需要一个过程的。
|
D******n 发帖数: 2965 | 42 你有没想过,每个职业棋手每一步对胜率的判断都不一样,这只单机狗和联机狗的判断
也不一样。你的感觉是错误把狗狗的胜率判断当成是客观的胜率了。当然,这狗狗的判
断,貌似要胜过大多数职业棋手,要离真实的规律更近一些。其实我看这个 bias其实
是很容易调整的,或者说应该能够根据狗狗的计算能力,算出误差范围。
【在 z***e 的大作中提到】 : 不知道啊,我第一感觉是,什么时候上升说明哪步就是胜负手
|
O**l 发帖数: 12923 | 43 并不是所有时候
狗A自估胜率+狗B自估胜率 == 1!!
再仔细看看UCB公式 结合minimax tree理解
【在 o*****p 的大作中提到】 : 胡扯。你想象两只Alphago同时从这里开始下,你这个说法就是“一个狗已经领先了, : 但还没有意识到自己领先”,“一个狗已经落后了,但还没有意识到自己落后” : : 的。
|
k*******r 发帖数: 355 | 44 楼主,你的理解有很大问题。
"但开局一段时间,既然它判断胜负是50%,说明它的那些不同寻常的招发也没那么可怕
。人的招法不比它差。"
这句完全不对。
开始阶段,就算是由你随机在局面上丢个子应对,alphago对自己的胜率估计也不会突
然从50%提高很多。因为这个胜率是模拟从这个局面开始,alphago黑白左右互搏自己的
胜率。(更何况实战人类棋手的落子比随机的还是好很多)
因为是刚开局,虽然你走了个大臭手,但如果从此换成alphago自己和自己下,还有相
当大希望扳回来。但这不表示说你刚才那手不臭。
换而言之,狗估计的这个胜率是从此局面开始换成狗咬狗情况下,自己的胜率。所以狗
自我评价胜率53%, 是说从此开始换另一只狗帮你下,你还有47%的机会赢,不是说基于
前面那个人类棋手的水平你有47%的机会赢。(事实是基于前面那个人类棋手的水平赢的
可能性为0)。 |
o*****p 发帖数: 2977 | 45 你这个说法相当于说,两只Alphago对弈,一个狗让另一个狗一子,胜率还是接近50%。
根据围棋的常识:李昌镐让李世石一子,胜率50%,这是绝不可能的。
【在 k*******r 的大作中提到】 : 楼主,你的理解有很大问题。 : "但开局一段时间,既然它判断胜负是50%,说明它的那些不同寻常的招发也没那么可怕 : 。人的招法不比它差。" : 这句完全不对。 : 开始阶段,就算是由你随机在局面上丢个子应对,alphago对自己的胜率估计也不会突 : 然从50%提高很多。因为这个胜率是模拟从这个局面开始,alphago黑白左右互搏自己的 : 胜率。(更何况实战人类棋手的落子比随机的还是好很多) : 因为是刚开局,虽然你走了个大臭手,但如果从此换成alphago自己和自己下,还有相 : 当大希望扳回来。但这不表示说你刚才那手不臭。 : 换而言之,狗估计的这个胜率是从此局面开始换成狗咬狗情况下,自己的胜率。所以狗
|
k*******r 发帖数: 355 | 46 我说了,实战中人类棋手走的子,毕竟不是随机落子,有点臭,但如果从此换成另一只
狗来帮你下,并非不可补救。
所以狗的胜率开始只略高于50%, 是说如果从此换另一只狗下,人类高手前面犯的错误
还有相当大的希望能被补救。
等到狗的胜率显著提高了(一半从50%到90%是突然提升而非线性),则表示从此开始即使
换另一只狗帮你,前面人类高手的错误也不可挽救了 |
o*****p 发帖数: 2977 | 47 你就是在说:一只狗能让另一只狗一子,而两只狗胜率差不多。
这是绝不可能的 :)
【在 k*******r 的大作中提到】 : 我说了,实战中人类棋手走的子,毕竟不是随机落子,有点臭,但如果从此换成另一只 : 狗来帮你下,并非不可补救。 : 所以狗的胜率开始只略高于50%, 是说如果从此换另一只狗下,人类高手前面犯的错误 : 还有相当大的希望能被补救。 : 等到狗的胜率显著提高了(一半从50%到90%是突然提升而非线性),则表示从此开始即使 : 换另一只狗帮你,前面人类高手的错误也不可挽救了
|
k*******r 发帖数: 355 | 48 我是在说,如果开局前5个子由你和狗下,然后从第6个子开始由另一只狗帮你下,那么
你赢的概率虽然低于50%,但并不会低很多。这有什么难理解的。(是让一个臭手,不
是让一子!)
特别是你前5个子也并非随机落下,而是按人类的棋理来的,这就更容易理解了。 |