双人博弈问题中的蒙特卡洛树搜索算法的改进

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wzh309420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能是现在非常重要的研究领域,不仅仅在计算机领域,各行各业都有着广泛的运用。机器学习是人工智能的重要分支,随着机器学习方法的不断发展,人们对于人工智能的理解也有了更深层次的理解,从指导计算机学习逻辑推理,到教会计算机一些先验知识做成专家系统,到现在让计算机学会自我学习。不仅仅在于处理大数据上,人工智能有着广泛的运用,在指导人类制定策略上也有着更加重要的指导作用。双人博弈游戏中的AI算法就是人工智能的重要的发展方向与运用前景。AlphaGo的出现标志着双人博弈问题上的最大的难题围棋也被攻破,AlphaGo巧妙的将深度学习和蒙特卡洛树搜索算法,卷积神经网络等方法结合在一起,大大提升了围棋AI的计算效率,使得在人类规则下,计算机击败最优秀的职业棋手成为现实。AlphaGo的成功并不意味着现在的算法就是最优的,在研究过程中发现蒙特卡洛树搜索算法中还存在着不少的问题与隐患。蒙特卡洛树搜索(MCTS)是一种针对决策类博弈游戏,运用蒙特卡洛模拟方法进行评估博弈策略的启发式搜索算法。但是,在面对计算机围棋这样复杂的决策过程时,简单的蒙特卡洛树搜索过程往往由于计算量大,导致收敛慢。本文中我们指出,双人博弈游戏中的蒙特卡洛树搜索不能收敛于双人博弈的最佳决策策略;由此我们提出蒙特卡洛树搜索结合极大极小值算法的改进算法,使得搜索结果不会因为蒙特卡洛方法的随机性导致失真。为了进一步提高复杂双人博弈游戏中搜索算法的计算效率,我们还结合了几种常见的剪枝策略。实验测试说明,该新算法显著改进了蒙特卡洛树搜索的准确性和效率。
其他文献
现代企业管理包括全面预算管理和内部控制,通过全面预算可以提高企业内控的执行效率,内控可以对预算风险加以控制,确保预算有效进行,二者相互影响,相互制约。将全面预算融入
随着新《企业会计准则》的颁布实施,不仅衍生出了交易性金融资产这一新会计概念,而且导致了企业会计核算与税务核算中的差异化,在一定程度上对企业资产的核算管理造成影响。
织体学是属于作曲法范畴的技术理论之一。"织体"是音乐作品中声部的组合方式,因此也称为"声部结构"。钢琴是性能较为完整的多声乐器之一,之所以被誉为"乐器王子",其中一个重
目的观察倍他乐克治疗扩张型心肌病的临床效果。方法选取64例扩张型心肌病患者,采用随机数字表法分为研究组和对照组各32例。对照组接受常规方法治疗,研究组在常规疗法基础上
普法是我国法治建设中一个重要命题,关系到我国民众法律意识的更新与重建,并进而为我国的法治建设奠定坚实的基础。而这一命题却在我国学界受到不应有的忽视。本文将普法这一
现今流行音乐已逐渐成为社会生活中的主流艺术形式,流行音乐理论研究对我国流行音乐的发展至关重要。目前国内多家音乐院校开设了流行音乐相关专业,但理论体系中作为音乐理论
目的探讨标准化沟通模式(SBAR)对培养实习护生临床沟通能力的重要性。方法选择2015年5—12月在我院消化科实习的16名实习护生为研究对象,将SBAR沟通模式应用于医护沟通、护士
目前,我国“四个全面”战略布局的提出,使当前和今后各项工作任务和要求更加明确,尤其是社会治理任务艰巨繁重。为了促进人民安居乐业,夯实经济社会可持续发展的基础,加强社
随着全球经济一体化,资金的流动更加频繁和迅速,对冲基金在国际金融市场中迅速崛起。对冲基金可以运作巨额的国际资本并对金融市场造成巨大影响,它的杠杆之高,曾让投机者赚了
“纸、塑料、金属、玻璃”──被称之为包装材料的四大支柱。其中,纸制品的增长速度最快,缘于纸的价格最便宜,既可以回收再利用或作植物肥料,也符合环保要求净化环境。纸类包装材
报纸