论文部分内容阅读
黄世杰(Aia Huang)从盛着光亮的黑色棋子的木碗中取出—枚棋子夹在中指和食指间,透过金属丝镜架的眼镜凝视了片刻,目光锁定在了棋盘上一块几乎是空的区域,将黑色棋子落在一枚单个白子的左下方。在围棋术语中管这种做法叫“肩侵”,从侧面入手,远离棋局的主要形势。
桌子的另一端,是过去十年最厉害的围棋选手李世石,他停住了。看着棋盘上散布着的37枚棋子,随后站起来离开。
在50英尺之外的评论席上,迈克尔雷蒙德正在通过闭路电视观局。雷蒙德是世界上唯一一位达到围棋九段的西方围棋选手,这种情形让他陷入两难。他和李世石同样感到震惊,“我真的无法说清这一步是好还是坏。”雷蒙德对在线关注棋局的两百万观众说。
“我认为这是错误的。”另一位英语评论员、美国围棋协会的传媒副主席克里斯·加洛克(Chris Garlock)说道。
几分钟后,李世石走回比赛房间。他坐了下来,没有触碰碗中的白色棋子。—分钟过去了,又一分钟——15分钟过去了,这对锦标赛中选手所能利用的两小时来说是个重大的停顿。最终,李世石拿起一枚棋子落在了黄世杰刚刚走的那步黑棋的上方。
黄世杰的那步棋才刚刚是棋局的第37步,却让李世石再没能从这重击的一步中缓过来。在4小时20分钟后,他放弃了,输掉了比赛。
但黄世杰并不是这场围棋比赛真正的胜者。他只是听从由他左边的平板显示器发出的指令,显示器连接到附近首尔四季酒店的一间控制室里,接入了遍布世界各地的谷歌数据中心的上百台电脑。只是借黄世杰之手,这场比赛背后真正参与博弈的“大脑”是一个叫作AlphaGo的人工智能机器,在这场可能是人类设计出的最复杂的棋局中打败了当今世上最优秀的棋手。
在同一间屋内,另一位围棋专家樊麾(法国国家围棋队总教练)也在观战,他曾三次获得欧洲冠军。起初他也对第37步困惑不已。但他曾和AlphaGo交战过,与其他人不同的是,他是AlphaGo的练习对手。在5个月内,樊麾和这台机器对弈了上百次,帮助AlphaGo的创造者研究它的运行方式。樊麾屡次败退,但他开始渐渐理解AlphaGo了——他也是唯——个。樊麾认为这步肩侵并非人类行为。沉思了10秒钟后,他似乎燃大悟,“太美了。”他说。
在这场五局三胜的比赛中,AlphaGo目前领先李世石——或者说机器领先人类——2比0。第37步显示了AlphaGo并非单单机械重复经年累月编入的程序或是执行强硬的预测运算法则。这一刻AlphaGo证明了它“理解”了,或是至少让人分辨不出是真的理解还是模仿。在李世石看来,AlphaGo展示出了围棋手称作直觉的东西,—种以人类达不到的方式打出美妙比赛的能力。
但不必为李世石或是人类的失败而过度惋惜。李世石并不是个牺牲者,第37步棋也并不是第一个机器开始压倒人类思维的时刻。恰恰相反:第37步棋代表着机器和人类终于开始共同进化了。
当大卫·西尔韦(DavidSilver)还是名来自英国东海岸Suffolk的15岁国际象棋锦标赛选手时,戴密斯·哈萨比斯(Demis Hassabis)已是战无不胜的国际象棋神童。哈萨比斯是个真正的奇才,出生于伦敦,有着中国新加坡背景的母亲和希腊塞浦路斯背景的父亲,一度成为全世界排名第二高的14岁以下国际象棋手。他参加地方锦标赛作为练习并且想着多赢点儿也无妨。“我早就知道哈萨比斯了,那时他还不知道我,”西尔韦说。西尔韦作为研究员,领导创造出了AlphaGo。“我看他出现在我的城市,赢得比赛之后离开。”
两人相识于剑桥的计算神经科学本科,这是一门研究如何理解人类思维以及未来机器如何变得智能的学科。但真正让他们走到一起的是游戏,不论是棋盘上的还是电脑的。
那时是1998年,哈萨比斯和西尔韦毕业后自然而然地共同创立了一家电子游戏公司。哈萨比斯常常和同事下围棋,受他的影响,西尔韦也开始自学。“能赢哈萨比斯几乎是—种荣誉象征,”西尔韦说。“我知道他才刚开始对这游戏感兴趣。”
他们加入了当地的国际围棋俱乐部,和二段、三段的棋哥:对弈,这相当于空手道中的黑带级别。另一方面,他们忍不住思考围棋是怎么成为—种机器从没能破解的高智能竞技。在1995年一个叫Chinook的计算机程序战胜了世界上最顶尖的西洋棋手。两多后,IBM公司的一台名为“深蓝”的超型计算机战胜了国际象棋世界冠军卡斯帕罗夫。之后的几年,机器不断在Scrabble棋、黑白棋,甚至电视智力竞答上屡获胜利。根据博弈论,围棋同国际象棋、西洋棋一样,是完全信息博弈,没有机会的成分,没有隐藏的信息。通常这些容易被计算机掌握,但围棋偏偏不能。
可问题是,围棋看起来十分简单。3000多年前发明于中国。围棋中两个棋手在一个横竖各19格的方格棋盘上对弈。棋手轮流在交叉点上落下黑棋子或白棋子,尽可能围堵或隔离对手的领地。人们说下棋像是战争的隐喻,但其实更像一场单独的战役。围棋像全球战场,或是地缘分政治。棋盘上一个角落的棋子能牵一发而动全身,此消彼长。在一局国际象棋中,按照给定的顺序一个棋手通常有大约35种可能的走法,而在围棋中有大概200种。在整场对弈中,那是完全另一个水平的复杂程度。围棋盘上可能的形势超出了宇宙中原子的数量。
不同于国际象棋,围棋棋手不论是人类还是机器都无法预计每个可能的走法所导致的终极结果。最顶尖的棋手凭借直觉下棋,而非粗略的算计。“一盘好棋看起来就很美,”哈萨比斯说,“看上去就像遵循某种美学。这就是围棋为什么千百年来仍如此引人入胜。”
2005年,哈萨比斯和西尔韦的游戏公司倒闭了,两个人分道扬镳。西尔韦在阿尔伯塔大学(Alberta)研究人工智能的初期形式,叫作增强学习,一种通过让机器自己一遍一遍完成任务并追踪带来最多回报的决策的学习方式。哈萨比斯则在UCL获得研究认知神经科学博士学位。
2010年他们又找到对方。哈萨比斯在伦敦合伙成立了一个叫DeepMind的人工智能公司;西尔韦加入了他的团队。他们的野心不小:创造出综合的人工智能,真正能思考的人工智能。但他们总得先着手做点儿什么。 这个起始点自然是游戏竞技。这对人工智能其实是个很好的测试。游戏是受到制约的,不像真实生活,游戏是个被围困起来的小宇宙,你可以客观地判定输和赢,成功或失败。DeepMind结合了增强学习和深度学习。深度学习是—种新锐的方法,在海量的数据集合中摸索出模式。为了证明这是否行得通,研究员们教给他们的人工智能雏形玩太空侵略者和Breakout(一种打砖头的游戏)。
结果证明Breakout奏效了,基本上像乒乓球,不过并不是和对手将一个像素球弹过来弹过去,而是碰到—个彩色砖墙反弹回来。碰到的那块砖就会消失;如果没接到弹回来的球,或是没碰到墙扑空了,就算输。在玩了500多次后,DeepMind的系统自动学会了以某种角度发送球以保证它能停在那儿,来回弹,将砖墙一块一块击掉。这是Breakout经典的模式,但DeepMind计算机每次都能准确无误,并且以人类反应能力远远达不到的速度。
寻找投资人时,在一次晚宴上,哈萨比斯拦住彼得·蒂尔,蒂尔是著名的PayPal的创始人,Facebook的投资人。哈萨比斯只有几分钟时间和他交谈。得知蒂尔很热衷国际象棋,哈萨比斯进一步对他发动攻势,说这竞技游戏存活如此之久是因为骑士和主教的技能和弱点之间的创造性的张力。蒂尔让哈萨比斯第二天来讲讲他的想法。一旦某位硅谷巨头对你产生兴趣,好事便会传千里,引起所有人的兴趣。通过蒂尔,哈萨比斯认识了埃隆·马斯克(Elon Musk),马斯克和谷歌的CEO拉里佩奇(LarryPage)讲了DeepMind。谷歌很快便以6亿5千万美元收购了这家公司。
加入搜索引擎巨头之后,哈萨比斯在一次谷歌的联合创始人谢尔盖·布林(SergeyBrin)也在的会议上演示了Atari,两个人发现他们有着共同的热情。还在斯坦福的研究生院时,布林太沉迷于玩围棋以至于拉里·佩奇都担心Google还能不能诞生出来。
就这样,当布林遇见哈萨比斯,他们聊到围棋。“你知道,DeepMind在几年内可能打败世界围棋冠军,”哈萨比斯对他说,“如果我们真的花心思研究的话。”
“我觉得那不可能。”布林说。
哈萨比斯听到他的回答,就这样,开始了游戏。
在第二局定出胜负时,西尔韦进入为AlphaGo搭建的控制室,就在比赛另一边的大厅里。它的大脑分布在世界各处。在这些显示器前,西尔韦可以看到一点儿AlphaGo的思维,监控它的健康状况,追踪它对每次游戏结果的预测如何运行。
点几个按键,西尔韦就可以收集到AlphaGo在游戏过程中的决策记录。他聚焦在第37步之前发生了什么。
在DeepMind和AlphaGo之前,人工智能研究员用机器系统地预测每一步的结果,以此破解围棋局,通过计算机“暴力法”,这很像1997年IBM的Deep Blue如何在国际象棋比赛中打败卡斯帕罗夫。我当时还是个新人记者,在PC杂志中报道了这场比赛。而李世石对战AlphaGo,人们认为这是人工智能的重要时刻。奇怪的是,如同李世石在这场比赛中的第二局,Deep Blue也在对卡斯帕罗夫的第二轮时走出了人类走不出来的一步棋。卡斯帕罗夫像李世石—样遭遇落败,但卡斯帕罗夫没有像李世石一样战斗,他几乎立即放弃了——在压力下屈服了。
但单凭暴力法从来不足以赢得围棋局。这个游戏有着太多的选择,可能导致太多的结果,即使是对于计算机来说。西尔韦的团队另辟蹊径,建造了一台可以学习如何合理地下棋而不是比赛的机器。
在DeepMind近伦敦国王十字站的办公室内,团队将3000万人类围棋走法灌输进深度神经网络,这个网络由硬件软件组成,松散地仿效人脑内的神经元的网络。神经网络实际上很常见:Facebook使用它们为照片中的脸添加标签;谷歌使用它们辨识安卓智能手机指令。如果你将足够多的你妈妈的照片输入神经网络,它就会能够认出她。给它输入足够多的演讲,它就能学会识别出你说了什么。给它输入3000万步围棋走法,它就能学会下围棋。
但仅知道规则并不能成为能手。第37步并不在那3000万步之中。那么AlphaGo是怎么走出这—步棋的呢?
AlphaGo知道这步风险很大——某种程度上它可以“懂得”任何事。“它知道这步是专业棋手不会走的,当它探查得越来越深,它就能压倒最初的指引。”西尔韦说道。某种程度上,alphaGo已经开始独立思考了。它的决策并非基于它的创造者编入它的数码DNA中的规则,而是基于它自己领悟出的运算法则。“它真的是通过它自己的操作和分析过程认知到的。”
事实上,机器已经算出人类专家棋手也走同样的这步棋的可能性是万分之一,所以AlphaGo就走了这步。
在它学会根据人类可能的行动下棋时,西尔韦使机器自己与自己博弈。它一局接一局地和一个同它自己神经网络轻微不同的版本对弈。当它行动时,它追踪哪一步能导致最大的回报,占领棋盘上最大的领地——西尔韦在研究生学院研究的增强学习技巧。AlphaGo开始形成自己的机械套路。
但这只是一小部分把戏。西尔韦的团队之后将百万的非人类的行动输入第二个神经网络,教它像卡斯帕罗夫(或DeepBlue)观察接下来的国际象棋局的方式一样来预计结果。它没法像国际象棋局一样计算所有可能的行动——这仍然不可能。但在集合了它自己下了这么多局之后收集的所有知识之后,AlphaGo能够开始预计一局围棋大概会如何进行了。
能从你没见过的初始条件揣测结果?那就是所谓的“直觉”。AlphaGo在第二局凭直觉走出的就是那第37步,—种超乎最厉害的人类棋手能达到的洞察力。连它的创造者也预见不到。“当我观看这些棋局,你不知道那有多紧张,”西尔韦从控制室回来之后对我说。“我真的不清楚将会出现什么情况。”
你付给一家公司六亿五千万美元不是让它来造一个会玩棋盘游戏的电脑的。深层学习和神经网络是谷歌很多服务项目的基础,包括它强大的搜索引擎。增强学习,AlphaGo的另一个不算秘密的武器,已经在教这家公司的实验室机器人挑拣和移动各种物品了。你能想象这场比赛对谷歌的人有多重要。埃里克·施密特——主席和前CEO——在第一局之前乘飞机赶到现场。Jeff Dean,谷歌最著名的工程师,也来看第一局。谢尔盖·布林来看第三、四局,带着他自己的木棋盘。
桌子的另一端,是过去十年最厉害的围棋选手李世石,他停住了。看着棋盘上散布着的37枚棋子,随后站起来离开。
在50英尺之外的评论席上,迈克尔雷蒙德正在通过闭路电视观局。雷蒙德是世界上唯一一位达到围棋九段的西方围棋选手,这种情形让他陷入两难。他和李世石同样感到震惊,“我真的无法说清这一步是好还是坏。”雷蒙德对在线关注棋局的两百万观众说。
“我认为这是错误的。”另一位英语评论员、美国围棋协会的传媒副主席克里斯·加洛克(Chris Garlock)说道。
几分钟后,李世石走回比赛房间。他坐了下来,没有触碰碗中的白色棋子。—分钟过去了,又一分钟——15分钟过去了,这对锦标赛中选手所能利用的两小时来说是个重大的停顿。最终,李世石拿起一枚棋子落在了黄世杰刚刚走的那步黑棋的上方。
黄世杰的那步棋才刚刚是棋局的第37步,却让李世石再没能从这重击的一步中缓过来。在4小时20分钟后,他放弃了,输掉了比赛。
但黄世杰并不是这场围棋比赛真正的胜者。他只是听从由他左边的平板显示器发出的指令,显示器连接到附近首尔四季酒店的一间控制室里,接入了遍布世界各地的谷歌数据中心的上百台电脑。只是借黄世杰之手,这场比赛背后真正参与博弈的“大脑”是一个叫作AlphaGo的人工智能机器,在这场可能是人类设计出的最复杂的棋局中打败了当今世上最优秀的棋手。
在同一间屋内,另一位围棋专家樊麾(法国国家围棋队总教练)也在观战,他曾三次获得欧洲冠军。起初他也对第37步困惑不已。但他曾和AlphaGo交战过,与其他人不同的是,他是AlphaGo的练习对手。在5个月内,樊麾和这台机器对弈了上百次,帮助AlphaGo的创造者研究它的运行方式。樊麾屡次败退,但他开始渐渐理解AlphaGo了——他也是唯——个。樊麾认为这步肩侵并非人类行为。沉思了10秒钟后,他似乎燃大悟,“太美了。”他说。
在这场五局三胜的比赛中,AlphaGo目前领先李世石——或者说机器领先人类——2比0。第37步显示了AlphaGo并非单单机械重复经年累月编入的程序或是执行强硬的预测运算法则。这一刻AlphaGo证明了它“理解”了,或是至少让人分辨不出是真的理解还是模仿。在李世石看来,AlphaGo展示出了围棋手称作直觉的东西,—种以人类达不到的方式打出美妙比赛的能力。
但不必为李世石或是人类的失败而过度惋惜。李世石并不是个牺牲者,第37步棋也并不是第一个机器开始压倒人类思维的时刻。恰恰相反:第37步棋代表着机器和人类终于开始共同进化了。
当大卫·西尔韦(DavidSilver)还是名来自英国东海岸Suffolk的15岁国际象棋锦标赛选手时,戴密斯·哈萨比斯(Demis Hassabis)已是战无不胜的国际象棋神童。哈萨比斯是个真正的奇才,出生于伦敦,有着中国新加坡背景的母亲和希腊塞浦路斯背景的父亲,一度成为全世界排名第二高的14岁以下国际象棋手。他参加地方锦标赛作为练习并且想着多赢点儿也无妨。“我早就知道哈萨比斯了,那时他还不知道我,”西尔韦说。西尔韦作为研究员,领导创造出了AlphaGo。“我看他出现在我的城市,赢得比赛之后离开。”
两人相识于剑桥的计算神经科学本科,这是一门研究如何理解人类思维以及未来机器如何变得智能的学科。但真正让他们走到一起的是游戏,不论是棋盘上的还是电脑的。
那时是1998年,哈萨比斯和西尔韦毕业后自然而然地共同创立了一家电子游戏公司。哈萨比斯常常和同事下围棋,受他的影响,西尔韦也开始自学。“能赢哈萨比斯几乎是—种荣誉象征,”西尔韦说。“我知道他才刚开始对这游戏感兴趣。”
他们加入了当地的国际围棋俱乐部,和二段、三段的棋哥:对弈,这相当于空手道中的黑带级别。另一方面,他们忍不住思考围棋是怎么成为—种机器从没能破解的高智能竞技。在1995年一个叫Chinook的计算机程序战胜了世界上最顶尖的西洋棋手。两多后,IBM公司的一台名为“深蓝”的超型计算机战胜了国际象棋世界冠军卡斯帕罗夫。之后的几年,机器不断在Scrabble棋、黑白棋,甚至电视智力竞答上屡获胜利。根据博弈论,围棋同国际象棋、西洋棋一样,是完全信息博弈,没有机会的成分,没有隐藏的信息。通常这些容易被计算机掌握,但围棋偏偏不能。
可问题是,围棋看起来十分简单。3000多年前发明于中国。围棋中两个棋手在一个横竖各19格的方格棋盘上对弈。棋手轮流在交叉点上落下黑棋子或白棋子,尽可能围堵或隔离对手的领地。人们说下棋像是战争的隐喻,但其实更像一场单独的战役。围棋像全球战场,或是地缘分政治。棋盘上一个角落的棋子能牵一发而动全身,此消彼长。在一局国际象棋中,按照给定的顺序一个棋手通常有大约35种可能的走法,而在围棋中有大概200种。在整场对弈中,那是完全另一个水平的复杂程度。围棋盘上可能的形势超出了宇宙中原子的数量。
不同于国际象棋,围棋棋手不论是人类还是机器都无法预计每个可能的走法所导致的终极结果。最顶尖的棋手凭借直觉下棋,而非粗略的算计。“一盘好棋看起来就很美,”哈萨比斯说,“看上去就像遵循某种美学。这就是围棋为什么千百年来仍如此引人入胜。”
2005年,哈萨比斯和西尔韦的游戏公司倒闭了,两个人分道扬镳。西尔韦在阿尔伯塔大学(Alberta)研究人工智能的初期形式,叫作增强学习,一种通过让机器自己一遍一遍完成任务并追踪带来最多回报的决策的学习方式。哈萨比斯则在UCL获得研究认知神经科学博士学位。
2010年他们又找到对方。哈萨比斯在伦敦合伙成立了一个叫DeepMind的人工智能公司;西尔韦加入了他的团队。他们的野心不小:创造出综合的人工智能,真正能思考的人工智能。但他们总得先着手做点儿什么。 这个起始点自然是游戏竞技。这对人工智能其实是个很好的测试。游戏是受到制约的,不像真实生活,游戏是个被围困起来的小宇宙,你可以客观地判定输和赢,成功或失败。DeepMind结合了增强学习和深度学习。深度学习是—种新锐的方法,在海量的数据集合中摸索出模式。为了证明这是否行得通,研究员们教给他们的人工智能雏形玩太空侵略者和Breakout(一种打砖头的游戏)。
结果证明Breakout奏效了,基本上像乒乓球,不过并不是和对手将一个像素球弹过来弹过去,而是碰到—个彩色砖墙反弹回来。碰到的那块砖就会消失;如果没接到弹回来的球,或是没碰到墙扑空了,就算输。在玩了500多次后,DeepMind的系统自动学会了以某种角度发送球以保证它能停在那儿,来回弹,将砖墙一块一块击掉。这是Breakout经典的模式,但DeepMind计算机每次都能准确无误,并且以人类反应能力远远达不到的速度。
寻找投资人时,在一次晚宴上,哈萨比斯拦住彼得·蒂尔,蒂尔是著名的PayPal的创始人,Facebook的投资人。哈萨比斯只有几分钟时间和他交谈。得知蒂尔很热衷国际象棋,哈萨比斯进一步对他发动攻势,说这竞技游戏存活如此之久是因为骑士和主教的技能和弱点之间的创造性的张力。蒂尔让哈萨比斯第二天来讲讲他的想法。一旦某位硅谷巨头对你产生兴趣,好事便会传千里,引起所有人的兴趣。通过蒂尔,哈萨比斯认识了埃隆·马斯克(Elon Musk),马斯克和谷歌的CEO拉里佩奇(LarryPage)讲了DeepMind。谷歌很快便以6亿5千万美元收购了这家公司。
加入搜索引擎巨头之后,哈萨比斯在一次谷歌的联合创始人谢尔盖·布林(SergeyBrin)也在的会议上演示了Atari,两个人发现他们有着共同的热情。还在斯坦福的研究生院时,布林太沉迷于玩围棋以至于拉里·佩奇都担心Google还能不能诞生出来。
就这样,当布林遇见哈萨比斯,他们聊到围棋。“你知道,DeepMind在几年内可能打败世界围棋冠军,”哈萨比斯对他说,“如果我们真的花心思研究的话。”
“我觉得那不可能。”布林说。
哈萨比斯听到他的回答,就这样,开始了游戏。
在第二局定出胜负时,西尔韦进入为AlphaGo搭建的控制室,就在比赛另一边的大厅里。它的大脑分布在世界各处。在这些显示器前,西尔韦可以看到一点儿AlphaGo的思维,监控它的健康状况,追踪它对每次游戏结果的预测如何运行。
点几个按键,西尔韦就可以收集到AlphaGo在游戏过程中的决策记录。他聚焦在第37步之前发生了什么。
在DeepMind和AlphaGo之前,人工智能研究员用机器系统地预测每一步的结果,以此破解围棋局,通过计算机“暴力法”,这很像1997年IBM的Deep Blue如何在国际象棋比赛中打败卡斯帕罗夫。我当时还是个新人记者,在PC杂志中报道了这场比赛。而李世石对战AlphaGo,人们认为这是人工智能的重要时刻。奇怪的是,如同李世石在这场比赛中的第二局,Deep Blue也在对卡斯帕罗夫的第二轮时走出了人类走不出来的一步棋。卡斯帕罗夫像李世石—样遭遇落败,但卡斯帕罗夫没有像李世石一样战斗,他几乎立即放弃了——在压力下屈服了。
但单凭暴力法从来不足以赢得围棋局。这个游戏有着太多的选择,可能导致太多的结果,即使是对于计算机来说。西尔韦的团队另辟蹊径,建造了一台可以学习如何合理地下棋而不是比赛的机器。
在DeepMind近伦敦国王十字站的办公室内,团队将3000万人类围棋走法灌输进深度神经网络,这个网络由硬件软件组成,松散地仿效人脑内的神经元的网络。神经网络实际上很常见:Facebook使用它们为照片中的脸添加标签;谷歌使用它们辨识安卓智能手机指令。如果你将足够多的你妈妈的照片输入神经网络,它就会能够认出她。给它输入足够多的演讲,它就能学会识别出你说了什么。给它输入3000万步围棋走法,它就能学会下围棋。
但仅知道规则并不能成为能手。第37步并不在那3000万步之中。那么AlphaGo是怎么走出这—步棋的呢?
AlphaGo知道这步风险很大——某种程度上它可以“懂得”任何事。“它知道这步是专业棋手不会走的,当它探查得越来越深,它就能压倒最初的指引。”西尔韦说道。某种程度上,alphaGo已经开始独立思考了。它的决策并非基于它的创造者编入它的数码DNA中的规则,而是基于它自己领悟出的运算法则。“它真的是通过它自己的操作和分析过程认知到的。”
事实上,机器已经算出人类专家棋手也走同样的这步棋的可能性是万分之一,所以AlphaGo就走了这步。
在它学会根据人类可能的行动下棋时,西尔韦使机器自己与自己博弈。它一局接一局地和一个同它自己神经网络轻微不同的版本对弈。当它行动时,它追踪哪一步能导致最大的回报,占领棋盘上最大的领地——西尔韦在研究生学院研究的增强学习技巧。AlphaGo开始形成自己的机械套路。
但这只是一小部分把戏。西尔韦的团队之后将百万的非人类的行动输入第二个神经网络,教它像卡斯帕罗夫(或DeepBlue)观察接下来的国际象棋局的方式一样来预计结果。它没法像国际象棋局一样计算所有可能的行动——这仍然不可能。但在集合了它自己下了这么多局之后收集的所有知识之后,AlphaGo能够开始预计一局围棋大概会如何进行了。
能从你没见过的初始条件揣测结果?那就是所谓的“直觉”。AlphaGo在第二局凭直觉走出的就是那第37步,—种超乎最厉害的人类棋手能达到的洞察力。连它的创造者也预见不到。“当我观看这些棋局,你不知道那有多紧张,”西尔韦从控制室回来之后对我说。“我真的不清楚将会出现什么情况。”
你付给一家公司六亿五千万美元不是让它来造一个会玩棋盘游戏的电脑的。深层学习和神经网络是谷歌很多服务项目的基础,包括它强大的搜索引擎。增强学习,AlphaGo的另一个不算秘密的武器,已经在教这家公司的实验室机器人挑拣和移动各种物品了。你能想象这场比赛对谷歌的人有多重要。埃里克·施密特——主席和前CEO——在第一局之前乘飞机赶到现场。Jeff Dean,谷歌最著名的工程师,也来看第一局。谢尔盖·布林来看第三、四局,带着他自己的木棋盘。