爱恩斯坦棋计算机博弈关键技术研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:hcai5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机博弈是人工智能领域的重要研究方向之一,被誉为人工智能学科的“果蝇”。爱恩斯坦棋属于完备信息博弈棋种,是一种棋局信息完全透明的博弈类型,即博弈双方在任何时候都能完全掌握当前的棋局信息。然而,它不同于其它的完备信息博弈棋种,在双方行棋过程中需通过投掷骰子来确定可走的棋子,具有随机性,这使博弈系统对棋盘局势的分析和决策带来一定的挑战。自2012年爱恩斯坦棋被列为中国大学生计算机博弈大赛项目之后,国内越来越多的人专注于研究针对爱恩斯坦棋的博弈技术。现有估值函数的研究往往是从进攻、防守和概率三个因素分析局势的优劣,将这些因素以不同权重线性相加来组成估值函数。通过这种方式构造的估值函数一般会受到设计者自身博弈水平的限制,而且很难得到一个最优的权重。此外,搜索算法的研究大多是针对Alpha-Beta搜索算法和期望极大极小搜索算法的改进,但是这些搜索算法过于依赖估值函数,估值函数的好坏决定了整个博弈系统的水平。本文以爱恩斯坦棋为研究对象,研究爱恩斯坦棋计算机博弈的关键技术。在搜索算法方面,本文引入蒙特卡洛树搜索(Monte-Carlo tree search,MCTS)算法,提出了概率启发的并行MCTS算法,用概率节点表示投骰子事件,以多对多的方式连接其子节点,并对概率节点进行并行效率优化。在估值方面,本文设计爱恩斯坦棋特征向量的表示方法,使用基于多层感知机的价值网络进行估值,并在训练过程中将价值网络与概率启发的MCTS算法结合,提高样本质量和棋力。在博弈系统方面,设计并实现了爱恩斯坦棋博弈系统,具有人机交互、自动化对弈、棋谱存取以及训练网络等功能,建立了计算机博弈算法设计与分析的验证工具。本文的主要创新点如下:(1)在博弈树搜索方面,设计了用于表示随机事件的数据结构,并提出了概率启发的并行蒙特卡洛树搜索算法。一方面,在博弈树中使用概率节点来表示掷骰子事件,使用多对多的形式连接概率节点和最大值或最小值节点;另一方面,将蒙特卡洛树搜索算法用于上述博弈树中,并对该算法的并行化方法做优化。通过实验分析和实践证明,概率启发的并行蒙特卡洛树搜索算法具有较高的搜索效率和智能水平,并在2018年中国大学生计算机博弈大赛荣获亚军(一等奖);(2)在估值方法方面,本文研究并设计了基于多层感知机的价值网络,以评估棋盘对当前行棋方的价值。首先,本文从棋盘盘面中提取48维的特征向量,设计价值网络模型,并与概率启发的并行蒙特卡洛树搜索算法结合。其次,从AlphaGo Zero程序中得到启发,设计了样本采集、网络训练和棋力评估三个阶段的价值网络的训练过程。通过实验分析,本文提出的价值网络模型经过训练后有较高的智能水平,并且结合价值网络的概率启发并行蒙特卡洛树搜索算法以55.3%的胜率战胜未结合价值网络的算法;(3)在博弈系统方面,本文设计并实现了爱恩斯坦棋博弈系统,包括训练子系统和对弈交互子系统。训练子系统用于执行和管理价值网络的训练进程,根据用户输入的相关参数训练神经网络,查看和保存训练过程中的误差和胜率变化,存取训练完成的网络模型;对弈交互子系统提供用户与系统中的算法进行对弈的功能,用户可选择系统中已有策略,手动设置策略参数,实现人-人、人-机和机-机自动对弈,将对弈过程可视化,并存储对弈棋谱。综上所述,本文在搜索、估值与系统三个方面进行爱恩斯坦棋计算机博弈技术的研究。首先,针对随机性的问题对蒙特卡洛树搜索算法进行了修正和并行优化,提升算法的搜索效率和智能水平;其次,设计了基于多层感知机的价值网络模型及其训练方法,进一步提升棋力;最后,实现了爱恩斯坦棋博弈系统,建立计算机博弈算法设计与分析的验证工具。
其他文献
<正>~~
期刊
随着5G网络的逐步普及,移动智能设备的迭代更新,人工智能、H5、AI等数字技术的发展推动了媒体的融合化发展,为高校思想政治教育创优提供了新的契机。面对多元媒体协同共促的
高中学生处于青年初期。他们的身心急剧发展、变化和成熟,学习的内容更加复杂、深刻,生活更加丰富多采。这种巨大的变化对高中学生的思维发展提出了更高的要求。研究表明,从初中
文章回顾了美国农场补贴政策的由来,并对美国农业部《2007年农场法建议稿》中农场补贴限制建议进行了剖析,指出任何对农场支持机制的修改,都涉及到美国国内各方面,代价巨大。补贴
2004年、2005年我国小麦连续两年获得丰收,再加上1000多万吨的进口,大大改善了国内小麦供求紧张的矛盾。2005年下半年以来,国内小麦市场总体呈现出疲软的态势。进入2006年,基本延
情感是人对客观事物是否符合自己需要的态度的体验,心理学研究提出:情感因素是影响教学质量的一个重要的原因。学生的认识过程、意志过程受制于积极丰富情感的控制,决定个性品质的全面发展。因为学生是学习的主体,学生的情感就变成影响学生学习的一个极为重要的原因。  一、情感是学生学好物理知识的重要因素  有人曾对参加第一到第四届全国中学生物理竞赛决赛的学生进行了调查,在九门学科的学习兴趣情况中,其中高居前四位
本文综述了世界缘脊叶蝉亚科Selenocephalinae的研究历史、概况和最新研究进展。