连“石头剪刀布”,人类也玩不过AI了

来源 :海外星云 | 被引量 : 0次 | 上传用户:chengm1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  如果说有一种解决问题的方法能跨域文化、种族和地域,那么除了抽签这种纯靠运气的方式,恐怕只剩下猜拳了。
  人们普遍认可 “石头-剪刀-布” 三者之间的克制关系。“公平 随机” 的特性使其不仅是活跃气氛的小游戏,更能作为一种相对公平的解决问题的手段,广泛应用在解决分歧,决定顺序,或者确定归属的关键时刻。更不用说,在谁洗碗、谁拖地、谁做饭之类的家务活上,猜拳自带的 “愿赌服输” 可以有效維系家庭和睦,堪称随叫随到的家庭关系调解员。
  在大多数人的认知里,猜拳是随机事件,玩家获胜的概率应该是一样的且恒定在1/3,但事实可能并非如此。近日,浙江大学何赛灵教授的研究团队开发了一个基于马尔可夫链的 AI 模型,专门用来玩猜拳游戏。在和 52 名人类玩家分别大战 300 回合之后,AI 击败了 95% 的玩家。
  对于人类玩家来说,规则是赢 2 分,平 1 分,输不得分。在与 AI 对战之前,参与者知道获胜会获得金钱奖励,总分越高,赢的钱越多。因此玩家故意放水或者随便乱选的概率极低。即便如此,AI 仍然大胜人类。在最悬殊的一场较量中,AI 获得了 198 次胜利,55 次平手,仅输了 47 次,胜率超过人类对手 4 倍。全部 15600 回合详尽的原始博弈数据,在论文的补充资料中给出(详见参考文献)。如果猜拳胜负真的是随机概率,那么从统计学的角度来讲,15600 场比赛下来,AI 获得如此大优势的概率非常低。
  拥有“智囊团”的Multi-AI模型
  本质上来看,猜拳属于博弈问题,其背后蕴藏着经典的纳什均衡,而每个个体的习惯、认知、策略和策略变化都会影响实际胜率。比如你和对手很熟悉,那么你可能知道他/她经常出布,因此可以多出剪刀来克制。
  浙江大学何赛灵教授团队提出的 AI 模型就是利用了类似的方法,证明了猜拳真的存在针对不同个体的长期制胜策略,可以有效提高胜率。这套 AI 模型基于 n-阶马尔可夫链设计,拥有记忆性,能够向前追溯最多 n 个历史状态并加以利用。为了在实战中应对人类玩家的不同性格和策略,研究团队还发明了一套 Multi-AI 模型。“建立对每个人都有效的单一模型很困难,因此我们决定将单个模型结合起来,使其能够区分和适应更多不同的竞争策略。” 研究人员在论文中解释称。
  在与人类对战的第一套 Multi-AI 模型中,他们放入了 1-5 阶马尔可夫链,即 5 个独立的 AI 模型,分别参考之前 1-5 个动作。Multi-AI 会从整体上参考 5 个 AI 模型各自的决策,至于选择哪个,还要看它们最近 5 次的表现。这里的 “最近 5 次” 被定义为一个超参数,名为 Focus length,可以视情况调整大小,实现进一步优化。在与人类对战的第二套 Multi-AI 模型中,该参数就被设为了 10。打个比方,每一个 n 阶马尔可夫链模型就像是一位军师,各自有不同的决策标准。而 Multi-AI 模型就是司令,手底下有好多名军师组成的智囊团。做决策时,每个军师会提交自己的出拳建议,司令会根据他们过去几次的表现,采纳综合分数最高的人的建议,以提高长期胜率。如果人类玩家连续胜利,就会促使 Multi-AI 转向选择其他 AI 模型的更优解。如果人类玩家连续失败,大概率会转换策略,或者打破之前的出拳规律,这时 Multi-AI 也可以随之调整。
  最终的社会实验结果反映出了这个想法的有效性。在 52 名志愿者中,只有不到 5 人击败了 AI。很多人都在最初 20个~50 个回合里处于领先,但随后就被 AI 捕捉到了隐藏的行为模式,饮恨败北。那些击败 AI 的人,胜率也只是稍微高出一些,并未拉开太大差距。
  6 年前被质疑的研究
  值得一提的是,在开发 AI 模型背后的算法时,研究团队阅读了 6 年前另一个浙大团队的研究成果,但使用了另一种不同的博弈策略。
  相较于之前对于所有玩家数据整体以统计学的方式进行研究,这里的 Multi-AI 模型更强调针对不同玩家之间的个性差异、出拳策略,来及时的进行调控,选取当下最适宜的博弈策略。2014 年 5 月,很多媒体都报道了一项以 “石头剪刀布” 游戏为对象的科研成果。这项研究课题原本是 “可控实验社会博弈系统中一些非平衡统计物理问题”,但媒体和舆论关注的重点大多是 “如何提高猜拳胜率”,因此还被质疑是浪费经费。
  其实不然。这项研究还被《麻省理工科技评论》评为 2014 年最佳成果(预印本)之一。论文揭示了猜拳游戏背后蕴藏着不同的行为模式,比如赢家倾向于下一轮出同样的手势,而输家倾向于改变;人们更愿意出石头等等。但更深层的主旨是探讨纳什均衡在真实博弈中是否成立,研究现实中的博弈模型框架,并且分析游戏中的宏观周期现象与微观行为基础。这其中用到的基础理论涉猎博弈论、心理学和神经科学等多个领域。
  类似的,2020 年这项关于 “石头剪刀布” 的最新研究,成果不仅仅是一个很厉害的猜拳 AI,还是一个很厉害的循环制衡模型分析师。未来有望拓展到其他博弈场景,比如预测竞争对手的下一步举动,规划更有效的竞选策略,或者制定更有利的定价方案等等。“(我们发现)人类的竞争行为确实有规律可循,通过使用适当的简单模型就能利用这些规律,”研究人员在论文中总结道,“对于竞争行为模式以及如何利用它们的研究,有望让我们更好地建模,预测和适应不同的竞争模式。”
  (本刊综合整理)(编辑/华生)
其他文献
对于许多传奇运动员来说,职业生涯的结束并不是“世界末日”,他们往往在退役后仍然有着丰厚的收入。在收入最高的12名退役运动员中,他们来自六个国家和五大运动项目,年龄从33岁到85岁。这份收入排行的数额包括了他们的年薪、广告代言、资格授权、发言人费用和商业活动出场费,还包括了某些运动员的高尔夫球场设计费,但不包括他们的投资收益。  1.迈克尔·乔丹  年收入:1亿美元  退役时间:2003年  年龄:
人生中的意外惊喜是值得珍藏的。某年寒冷的春天,我与朋友在美国加州的101公路上,随机决定前往某酒庄品酒。我们驶入一路都是沙漠地形的山区,约摸一个小时,远处一幢泥砖屋在我的眼前矗立,心中狂喜简直是意外中的意外。这画面出现在我的偶像——美国女画家乔治亚·艾琪芙(Georgia O’ Keeffe)的传记里——圣塔非的泥砖屋建筑文化。  进入酒庄后才知,这儿是由一位印第安人经营的民宿,名叫“野土狼”。号
2016年里约奥运会就要来了,世界顶尖的运动员们都在准备着创造好成绩,其中也不乏一些存有侥幸心理的运动员,他们希望借助药物达到提高赛会成绩的目的。奥运史上有许多伟大的运动员,也有以下这些因未通过药检而“狼狈不堪”的运动员甚至名将们。  1.玛利亚·萨维诺娃    为俄罗斯在2012年伦敦奥运会上赢得女子800米金牌的奥运选手玛利亚·萨维诺娃,她在2015年世界反兴奋剂机构的检测报告中被列入终身禁赛
伊拉克目前的石油日产量是330万桶,是石油输出国组织(OPEC)中的第二大产油国。国际能源署当前的预测认为,伊拉克的产量将在2015年增加到每天440万桶,到2020年则增至每天600万桶。  这种增长将需要大量外国投资来恢复伊拉克的油田。西方石油巨头埃克森美孚、BP、荷兰皇家壳牌公司、西方石油公司及雪佛龙已在伊拉克南部的油田和北部的库尔德斯坦自治区投入了大量资源。  “伊拉克的崩溃或将引发一场国
泰勒和布隆伯格  现在离2020美国大选投票还有一年不到,有想法的大腕们都站出来了,连超级富豪布隆伯格这次都摒不住宣布竞选,口号是重建美国,布隆伯格发布的竞选视频很直接:没法再忍特朗普4年。  布隆伯格今年77岁,比老特还大4岁,满脸褶子,如果说特朗普是普通超级富豪,那布隆伯格就是更胜一筹的超级富豪,起步比特朗普晚,但雪球滚起来像打了鸡血一样一骑绝尘,赚到了特朗普的17倍。想当年,布隆伯格和特朗普
重点图书由出版社推荐,本刊进行遴选。选取范围为:在宣传党和国家的方针政策及重大活动中被确定的重点图书;学术著作;工具书;科普读物;文学和艺术类名著;读者欢迎的畅销书;译著及引进版图书;出版社精心制作并准备报送评奖的图书。    【哲学·美学·心理学】    单行道  (德)本雅明著;王才勇译7-214-04173-117.00元  江苏人民出版社2006.03 (025)83210466  本书是
英国政府为加强应对气候变化措施,将禁止在英国销售新的汽油,柴油或混合动力汽车的禁令从2040年提前至2035年实施。  专家表示,如果英国要达到到2050年几乎实现零碳排放的目标,那么2040年再禁止柴油汽油车将为时已晚。  英国首相约翰逊在宣布英国将于11月份举行的联合国气候峰会的活动的发布会上,宣布了这项最新政策。  他说,这次峰会是进一步加强保护地球的一次机会。  他說,2020年将是地球的
米特福德六姐妹的父母是瑞兹达尔爵士和夫人。六姐妹分别是南希、帕米拉、戴安娜、尤妮蒂、杰西卡和黛博拉,她们的成长经历不乏离奇古怪。六姐妹在庄园大宅中长大,她们都不同程度地相信鬼、神、宿命等。  童年束缚多  她们有点庸俗的父亲仇视外国人、天主教徒和“外国”的任何地方,最后他给女儿们遗传了一种固执的个性。她们的母亲是位个性不突出的家居型贵妇,在当时事事由佣人操办代劳的贵族家庭中很不多见,因此女儿们受她
安妮·海瑟威Anne Hathaway  1:短发加分的原因是把所有优点都凸显出来了。若是长发,站在其他漂亮女生旁边就不会特别被凸显出来,如果你也拥有立体五官的优势,那么把长发剪短,会是一个不错的尝试。  2:脸型的比例很好,小脸、五官又突出,眼睛也大,长短发都适合。但这样的短发不适合肩膀太宽、头的比例太大、下巴线条比较宽或脖子比较粗的人,会将缺点凸显出来,反而留中长发(下巴以下~肩膀长度)会比较
如果你对艾隆·马斯克的认识还只停留在“特斯拉之父”,那么真是“弱爆了”。艾隆·马斯克一边经营着地面的电动车市场,一边还盘算着做太空生意,他是一名不折不扣的造梦者。艾隆·马斯克拥有一家民营航天公司X空间,该公司的业务简单说来就是送普通人上太空,自2012年X空间公司的猎鹰9号成功发射,搭载的“龙”和“龙骑士”航天器顺利进入太空并返航,X空间得到了长足的发展,2014年艾隆·马斯克公布了载人的“龙V2