阿法狗启示录

来源 :智族GQ | 被引量 : 0次 | 上传用户：gzhp

【摘要】

：

【出处】

：

智族GQ

【发表日期】

：

2016年7期

【关键词】

：

围棋棋手国际象棋棋子西尔比斯

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　黄世杰（Aia Huang）从盛着光亮的黑色棋子的木碗中取出—枚棋子夹在中指和食指间，透过金属丝镜架的眼镜凝视了片刻，目光锁定在了棋盘上一块几乎是空的区域，将黑色棋子落在一枚单个白子的左下方。在围棋术语中管这种做法叫“肩侵”，从侧面入手，远离棋局的主要形势。
　　桌子的另一端，是过去十年最厉害的围棋选手李世石，他停住了。看着棋盘上散布着的37枚棋子，随后站起来离开。
　　在50英尺之外的评论席上，迈克尔雷蒙德正在通过闭路电视观局。雷蒙德是世界上唯一一位达到围棋九段的西方围棋选手，这种情形让他陷入两难。他和李世石同样感到震惊，“我真的无法说清这一步是好还是坏。”雷蒙德对在线关注棋局的两百万观众说。
　　“我认为这是错误的。”另一位英语评论员、美国围棋协会的传媒副主席克里斯·加洛克（Chris Garlock）说道。
　　几分钟后，李世石走回比赛房间。他坐了下来，没有触碰碗中的白色棋子。—分钟过去了，又一分钟——15分钟过去了，这对锦标赛中选手所能利用的两小时来说是个重大的停顿。最终，李世石拿起一枚棋子落在了黄世杰刚刚走的那步黑棋的上方。
　　黄世杰的那步棋才刚刚是棋局的第37步，却让李世石再没能从这重击的一步中缓过来。在4小时20分钟后，他放弃了，输掉了比赛。
　　但黄世杰并不是这场围棋比赛真正的胜者。他只是听从由他左边的平板显示器发出的指令，显示器连接到附近首尔四季酒店的一间控制室里，接入了遍布世界各地的谷歌数据中心的上百台电脑。只是借黄世杰之手，这场比赛背后真正参与博弈的“大脑”是一个叫作AlphaGo的人工智能机器，在这场可能是人类设计出的最复杂的棋局中打败了当今世上最优秀的棋手。
　　在同一间屋内，另一位围棋专家樊麾（法国国家围棋队总教练）也在观战，他曾三次获得欧洲冠军。起初他也对第37步困惑不已。但他曾和AlphaGo交战过，与其他人不同的是，他是AlphaGo的练习对手。在5个月内，樊麾和这台机器对弈了上百次，帮助AlphaGo的创造者研究它的运行方式。樊麾屡次败退，但他开始渐渐理解AlphaGo了——他也是唯——个。樊麾认为这步肩侵并非人类行为。沉思了10秒钟后，他似乎燃大悟，“太美了。”他说。
　　在这场五局三胜的比赛中，AlphaGo目前领先李世石——或者说机器领先人类——2比0。第37步显示了AlphaGo并非单单机械重复经年累月编入的程序或是执行强硬的预测运算法则。这一刻AlphaGo证明了它“理解”了，或是至少让人分辨不出是真的理解还是模仿。在李世石看来，AlphaGo展示出了围棋手称作直觉的东西，—种以人类达不到的方式打出美妙比赛的能力。
　　但不必为李世石或是人类的失败而过度惋惜。李世石并不是个牺牲者，第37步棋也并不是第一个机器开始压倒人类思维的时刻。恰恰相反：第37步棋代表着机器和人类终于开始共同进化了。
　　当大卫·西尔韦（DavidSilver）还是名来自英国东海岸Suffolk的15岁国际象棋锦标赛选手时，戴密斯·哈萨比斯（Demis Hassabis）已是战无不胜的国际象棋神童。哈萨比斯是个真正的奇才，出生于伦敦，有着中国新加坡背景的母亲和希腊塞浦路斯背景的父亲，一度成为全世界排名第二高的14岁以下国际象棋手。他参加地方锦标赛作为练习并且想着多赢点儿也无妨。“我早就知道哈萨比斯了，那时他还不知道我，”西尔韦说。西尔韦作为研究员，领导创造出了AlphaGo。“我看他出现在我的城市，赢得比赛之后离开。”
　　两人相识于剑桥的计算神经科学本科，这是一门研究如何理解人类思维以及未来机器如何变得智能的学科。但真正让他们走到一起的是游戏，不论是棋盘上的还是电脑的。
　　那时是1998年，哈萨比斯和西尔韦毕业后自然而然地共同创立了一家电子游戏公司。哈萨比斯常常和同事下围棋，受他的影响，西尔韦也开始自学。“能赢哈萨比斯几乎是—种荣誉象征，”西尔韦说。“我知道他才刚开始对这游戏感兴趣。”
　　他们加入了当地的国际围棋俱乐部，和二段、三段的棋哥：对弈，这相当于空手道中的黑带级别。另一方面，他们忍不住思考围棋是怎么成为—种机器从没能破解的高智能竞技。在1995年一个叫Chinook的计算机程序战胜了世界上最顶尖的西洋棋手。两多后，IBM公司的一台名为“深蓝”的超型计算机战胜了国际象棋世界冠军卡斯帕罗夫。之后的几年，机器不断在Scrabble棋、黑白棋，甚至电视智力竞答上屡获胜利。根据博弈论，围棋同国际象棋、西洋棋一样，是完全信息博弈，没有机会的成分，没有隐藏的信息。通常这些容易被计算机掌握，但围棋偏偏不能。
　　可问题是，围棋看起来十分简单。3000多年前发明于中国。围棋中两个棋手在一个横竖各19格的方格棋盘上对弈。棋手轮流在交叉点上落下黑棋子或白棋子，尽可能围堵或隔离对手的领地。人们说下棋像是战争的隐喻，但其实更像一场单独的战役。围棋像全球战场，或是地缘分政治。棋盘上一个角落的棋子能牵一发而动全身，此消彼长。在一局国际象棋中，按照给定的顺序一个棋手通常有大约35种可能的走法，而在围棋中有大概200种。在整场对弈中，那是完全另一个水平的复杂程度。围棋盘上可能的形势超出了宇宙中原子的数量。
　　不同于国际象棋，围棋棋手不论是人类还是机器都无法预计每个可能的走法所导致的终极结果。最顶尖的棋手凭借直觉下棋，而非粗略的算计。“一盘好棋看起来就很美，”哈萨比斯说，“看上去就像遵循某种美学。这就是围棋为什么千百年来仍如此引人入胜。”
　　2005年，哈萨比斯和西尔韦的游戏公司倒闭了，两个人分道扬镳。西尔韦在阿尔伯塔大学（Alberta）研究人工智能的初期形式，叫作增强学习，一种通过让机器自己一遍一遍完成任务并追踪带来最多回报的决策的学习方式。哈萨比斯则在UCL获得研究认知神经科学博士学位。
　　2010年他们又找到对方。哈萨比斯在伦敦合伙成立了一个叫DeepMind的人工智能公司；西尔韦加入了他的团队。他们的野心不小：创造出综合的人工智能，真正能思考的人工智能。但他们总得先着手做点儿什么。　　这个起始点自然是游戏竞技。这对人工智能其实是个很好的测试。游戏是受到制约的，不像真实生活，游戏是个被围困起来的小宇宙，你可以客观地判定输和赢，成功或失败。DeepMind结合了增强学习和深度学习。深度学习是—种新锐的方法，在海量的数据集合中摸索出模式。为了证明这是否行得通，研究员们教给他们的人工智能雏形玩太空侵略者和Breakout（一种打砖头的游戏）。
　　结果证明Breakout奏效了，基本上像乒乓球，不过并不是和对手将一个像素球弹过来弹过去，而是碰到—个彩色砖墙反弹回来。碰到的那块砖就会消失；如果没接到弹回来的球，或是没碰到墙扑空了，就算输。在玩了500多次后，DeepMind的系统自动学会了以某种角度发送球以保证它能停在那儿，来回弹，将砖墙一块一块击掉。这是Breakout经典的模式，但DeepMind计算机每次都能准确无误，并且以人类反应能力远远达不到的速度。
　　寻找投资人时，在一次晚宴上，哈萨比斯拦住彼得·蒂尔，蒂尔是著名的PayPal的创始人，Facebook的投资人。哈萨比斯只有几分钟时间和他交谈。得知蒂尔很热衷国际象棋，哈萨比斯进一步对他发动攻势，说这竞技游戏存活如此之久是因为骑士和主教的技能和弱点之间的创造性的张力。蒂尔让哈萨比斯第二天来讲讲他的想法。一旦某位硅谷巨头对你产生兴趣，好事便会传千里，引起所有人的兴趣。通过蒂尔，哈萨比斯认识了埃隆·马斯克（Elon Musk），马斯克和谷歌的CEO拉里佩奇（LarryPage）讲了DeepMind。谷歌很快便以6亿5千万美元收购了这家公司。
　　加入搜索引擎巨头之后，哈萨比斯在一次谷歌的联合创始人谢尔盖·布林（SergeyBrin）也在的会议上演示了Atari，两个人发现他们有着共同的热情。还在斯坦福的研究生院时，布林太沉迷于玩围棋以至于拉里·佩奇都担心Google还能不能诞生出来。
　　就这样，当布林遇见哈萨比斯，他们聊到围棋。“你知道，DeepMind在几年内可能打败世界围棋冠军，”哈萨比斯对他说，“如果我们真的花心思研究的话。”
　　“我觉得那不可能。”布林说。
　　哈萨比斯听到他的回答，就这样，开始了游戏。
　　在第二局定出胜负时，西尔韦进入为AlphaGo搭建的控制室，就在比赛另一边的大厅里。它的大脑分布在世界各处。在这些显示器前，西尔韦可以看到一点儿AlphaGo的思维，监控它的健康状况，追踪它对每次游戏结果的预测如何运行。
　　点几个按键，西尔韦就可以收集到AlphaGo在游戏过程中的决策记录。他聚焦在第37步之前发生了什么。
　　在DeepMind和AlphaGo之前，人工智能研究员用机器系统地预测每一步的结果，以此破解围棋局，通过计算机“暴力法”，这很像1997年IBM的Deep Blue如何在国际象棋比赛中打败卡斯帕罗夫。我当时还是个新人记者，在PC杂志中报道了这场比赛。而李世石对战AlphaGo，人们认为这是人工智能的重要时刻。奇怪的是，如同李世石在这场比赛中的第二局，Deep Blue也在对卡斯帕罗夫的第二轮时走出了人类走不出来的一步棋。卡斯帕罗夫像李世石—样遭遇落败，但卡斯帕罗夫没有像李世石一样战斗，他几乎立即放弃了——在压力下屈服了。
　　但单凭暴力法从来不足以赢得围棋局。这个游戏有着太多的选择，可能导致太多的结果，即使是对于计算机来说。西尔韦的团队另辟蹊径，建造了一台可以学习如何合理地下棋而不是比赛的机器。
　　在DeepMind近伦敦国王十字站的办公室内，团队将3000万人类围棋走法灌输进深度神经网络，这个网络由硬件软件组成，松散地仿效人脑内的神经元的网络。神经网络实际上很常见：Facebook使用它们为照片中的脸添加标签；谷歌使用它们辨识安卓智能手机指令。如果你将足够多的你妈妈的照片输入神经网络，它就会能够认出她。给它输入足够多的演讲，它就能学会识别出你说了什么。给它输入3000万步围棋走法，它就能学会下围棋。
　　但仅知道规则并不能成为能手。第37步并不在那3000万步之中。那么AlphaGo是怎么走出这—步棋的呢？
　　AlphaGo知道这步风险很大——某种程度上它可以“懂得”任何事。“它知道这步是专业棋手不会走的，当它探查得越来越深，它就能压倒最初的指引。”西尔韦说道。某种程度上，alphaGo已经开始独立思考了。它的决策并非基于它的创造者编入它的数码DNA中的规则，而是基于它自己领悟出的运算法则。“它真的是通过它自己的操作和分析过程认知到的。”
　　事实上，机器已经算出人类专家棋手也走同样的这步棋的可能性是万分之一，所以AlphaGo就走了这步。
　　在它学会根据人类可能的行动下棋时，西尔韦使机器自己与自己博弈。它一局接一局地和一个同它自己神经网络轻微不同的版本对弈。当它行动时，它追踪哪一步能导致最大的回报，占领棋盘上最大的领地——西尔韦在研究生学院研究的增强学习技巧。AlphaGo开始形成自己的机械套路。
　　但这只是一小部分把戏。西尔韦的团队之后将百万的非人类的行动输入第二个神经网络，教它像卡斯帕罗夫（或DeepBlue）观察接下来的国际象棋局的方式一样来预计结果。它没法像国际象棋局一样计算所有可能的行动——这仍然不可能。但在集合了它自己下了这么多局之后收集的所有知识之后，AlphaGo能够开始预计一局围棋大概会如何进行了。
　　能从你没见过的初始条件揣测结果？那就是所谓的“直觉”。AlphaGo在第二局凭直觉走出的就是那第37步，—种超乎最厉害的人类棋手能达到的洞察力。连它的创造者也预见不到。“当我观看这些棋局，你不知道那有多紧张，”西尔韦从控制室回来之后对我说。“我真的不清楚将会出现什么情况。”
　　你付给一家公司六亿五千万美元不是让它来造一个会玩棋盘游戏的电脑的。深层学习和神经网络是谷歌很多服务项目的基础，包括它强大的搜索引擎。增强学习，AlphaGo的另一个不算秘密的武器，已经在教这家公司的实验室机器人挑拣和移动各种物品了。你能想象这场比赛对谷歌的人有多重要。埃里克·施密特——主席和前CEO——在第一局之前乘飞机赶到现场。Jeff Dean，谷歌最著名的工程师，也来看第一局。谢尔盖·布林来看第三、四局，带着他自己的木棋盘。

其他文献

让“解题”变得流畅起来

摘要：解题习惯的养成能够让学生形成良好的“题感”。教学中，基于学生的“最近发展区”，教师可以通过“审题”“计划”“执行”和“反思”等解题环节与活动培养学生的解题习惯。解题习惯可以让学生在解题中“少卡壳”“少走弯路”“多走捷径”，可以让“解题”变得流畅起来。　　关键词：小学数学；解题习惯；培养策略　　“好的习惯是一辈子用不尽的利息，坏的习惯则是一辈子偿不尽的债务。”（叶圣陶语）数学解题同样存在着习

期刊

数学习惯学生引导学生条件前项

英菲尼迪Q50 Eau Rouge概念车英菲尼迪Q30概念车

备受赞誉的英菲尼迪Q50 Eau Rouge概念车将亮相本届北京车展，成为本届北京车展最大的亮点之一。基于英菲尼迪Q50打造，Q50 Eau Rouge概念车大量采用了灵感来源于F1赛车的碳纤维材质车身动力学组件。凭借极富传奇性的双涡轮增压3.8升 V6汽油发动机，Q50 Eau Rouge拥有418千瓦的峰值功率和600牛·米的峰值扭矩，4秒内即可加速至60英里/小时（96公里/小时），最高速度

期刊

车型宝马现款轴距高尔夫车身

走进教材激活思维

摘要：数学教学要走进教材，研究教材，以此激活学生的数学思维。首先要走进教材情境，让思维有温度；其次要走进教材例题，让思维有坡度；最后要走进教材练习，让思维有深度。　　关键词：走进教材；激活思维；比的应用；教学　　目前新修订的数学教材，从编排结构到内容上，都能够遵照学生的认知水平与年龄特征，对培养学生的数学思维具有非常重要的作用。教学之前我们要走进教材，在学生真实基础上活用教材，让学生的数学思维与

期刊

学生教材例题这一情境橘子

绚烂与安静

读到“透明”二字，我的脑海里呈现出的是明净、晶莹。细想一下，的确应该是这样美好的感觉。你所说的“存在感很低”，客观上说明：你“人品”良好，完全没有与人发生过争执；你成绩均衡，即便暂时不出众，却没有学得不好的科目，证明你勤奋努力，而且智商不错，不是吗？　　所谓“存在感”，从获得方式上来说，或许我们可以分为来自周围 “设定程序”的，比如各类学科竞赛、体育比赛等；以及“自主创设”的，比如你提到的那位作家

期刊

自己的的是老师是在程序维度

听鱼说

鱼说：生活就是一块巧克力。　　　　1月/玻璃缸/鱼/假面人　　鱼说：“我好想回到大海，拥抱那深蓝色的海水，看波浪翻腾出雪白细腻的泡沫。”我的手指轻轻划过玻璃缸的表面。下午3点的温暖阳光斜射进屋内，为房间涂上一层柔软的蜜色。鱼受尽万般宠爱，早已不再对大海向往，却如此故作姿态，巧言令色。它扭动着鲜艳的身子，在层层叠叠的湿绿水草和光滑石块间游动，仿佛骄傲地巡视自己王国的君主。那些软绵绵的植物匍匐在它身边

期刊

玻璃缸它是我是沉默远方空想

浙江：草根经济的韧性

鸡年春节，每一个刚到萧山机场的人第一感受便是这里的空气。这是杭州立法全面禁止燃放烟花爆竹的第一个春节，没有了绚烂烟花，却收获了优良的空气质量。　　如果说空气关乎每一个游客呼吸的本能，作为财经记者，浙江自然是一个值得用心关注的省份。它是常年位列中国GDP前五的“尖子生”，“浙江模式” “浙江经验”等，早已不绝于耳。　　同时，它又贡献了支撑中国经济发展的重要力量“浙商”。据统计，在外浙商每年创造的财富

期刊

浙江海宁义乌甘肃千岛湖皮革

英国成为“欧洲的问题儿童”

英国首相约翰逊是出色的竞选人，是魅力十足的演员，但对应对新冠肺炎这样的危机，这不是他的专长。近日，首相顾问卡明斯被曝违反“封城”令，在出现感染新冠肺炎症状后离开伦敦，横跨半个英国外出见亲人，政府却不予指责令无数人寒心。　　令人失望的还有缓慢的防疫措施。当欧洲已经关闭时，英国人还在聚集娱乐并“互相感染”。3月，约翰逊和8万多人观看了橄榄球比赛，5万多名球迷观看了利物浦和马竞的足球赛;超25万名观众参

期刊

泰勒法国英国约翰逊海军核潜艇

水边

烈日当头，唯有水边解忧愁。不过先别急着湿身，在水边有了凉爽的空气相伴，完全可以让时光消磨得更加悠闲，带些打发时光的好物件，再铺上一大块沙滩巾，让水边变成你的游乐园。

期刊

水边时光上一游乐园物件急着

试题素材2 城市,让生活更美好

中国2010年上海世界博览会(Expo 2010)，是第41届世界博览会。于2010年5月1日至10月31日期间，在中国上海市举行。此次世博会也是由中国举办的首届世界博览会。上海世博会以“城市，让生活更美好”(Better City，Better Life)为主题，总投资达450亿人民币，创造了世界博览会史上最大规模纪录。

期刊

中国世界博览会全文是由原貌请先

发掘轻薄单品的另一面

春水吹皺了湖水，吹来了久违的暖意，穿得过于挺括去上班不如拥抱这宜人的暖意，让一抹明黄点亮整身造型，或是选择一套较为宽松剪裁的西装，一条潇洒的高腰裤，夏天就在眼前，是时候让这些轻薄随性的单品上场了。

期刊

暖意挺括来了就在剪裁春水

阿法狗启示录

与本文相关的学术论文