六子棋中基于BP-TD学习的局面估值方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:kuwaning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因子大。该特点限制了六子棋程序中博弈树搜索所能够抵达的最大深度,这使得局面的估值就变得特别重要。估值是各种博弈问题中最难以处理的一个问题,局面估值的准确性往往直接决定了选择后继着法的策略的优劣。本文将TD算法与BP神经元网络相结合,首次将其应用于六子棋的局面估值中。该方法利用BP神经元网络做为局面的估值函数,通过TD算法直接从原始经验中学习,自动调整估值函数的参数,将BP神经元网络的有监督学习转换为无监督学习,避免了神经网络在有监督学习下调参容易受人类经验影响的缺陷,同时,BP神经元网络自适应性好,容错能力强,能够自动发现输入实例中与学习目标函数中最相关的特征,适合用于对六子棋复杂局面的估值。考虑到六子棋的特点,为了使TD学习更有效,本文还提出了一种两阶段的着法选择策略。第一阶段的策略是按BP网络置信度和备选着法的估值为其分配权重,然后按概率选择后继着法,具有较大权值的着法被赋予较高的概率;第二阶段的策略是最佳着法的极大极小选择策略。这两种策略的联合使用,使TDConn6在TD学习中兼有探索性和利用性特点。采用以上的方法和策略,本文实现了六子棋程序TDConn6, TDConn6从“零知识”开始学习,经过30000盘的自学习训练后,分别与博弈程序NEUConn6与NEU6Star各对弈1000次,所取得的胜率分别为64.7%和80.5%,从而验证了本文提出的方法和策略是有效的和实用的。
其他文献
随着计算机软件的日益复杂,软件可信的要求越来越高,特别是在航空、航天、金融、证券、交通等领域尤其如此。可信要求软件具有高可靠性和高可用性。软件中隐藏的缺陷数目直接决
现代经济高速运转的需求带动了信息技术的迅猛发展,而信息化管理成为了企事业单位生存和发展所采用的普遍对策,建设教学管理信息系统是现代学校信息化管理的重要基础和核心内
随着多核处理器的不断发展,应用程序对计算机性能提出了更高的要求,然而由于多核处理器每个核心的处理能力通常都比以往的单核处理器弱,使用多核处理器并不能直接带来高性能,
传统数据挖掘的对象是单一关系表中的数据。对于许多实际应用,数据是存储在多个关系表中,先要把多关系数据集成到一个单一关系中,这需要大量的预处理工作,并且会导致信息丢失
月球作为与地球关系最为密切的天体,对月球进行探测是人类深空探测的第一步。近年来,许多国家先后宣布了新的月球探测计划,表明了自己探月的雄心壮志。地月转移轨道的设计是月球
知识图谱是人工智能技术发展进程中的一大进步,它把非结构化与半结构化数据组织成了同时易于人类与机器理解的图结构,为机器实现智能化提供了知识上的支持。近年来,知识图谱技术
目前,(?)Veb Services技术正受到产业界和学术界越来越多的关注,其应用也越来越广泛,出现了不少功能相同或相似的Web服务。在功能驱动的Web服务组合中,代表非功能属性的QoS与
随着当今网络通信技术的高速发展,网络规模不断的扩大,复杂度不断的增加,如何可视化的管理如此庞大、复杂的网络,成为网络管理系统面临的一项重大任务。可视化的管理可以分为
对密文关系的查询处理是DAS模型面临的主要问题之一。目前,现有加密方案和索引方法均存在查询命中率低的缺陷,造成了不必要的网络堵塞。减少查询结果中冗余数据的数量是解决
系统发生分析领域的多序列比对和系统发生树构建等问题都是NP-难问题。本文针对这些问题,对蚁群算法进行性能改进及参数分析,提出两种改进蚁群算法;并基于蚁群算法提出两种多