六子棋中基于BP-TD学习的局面估值方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：kuwaning

【摘要】

：

空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因子大。该特点限制了六子棋程序中博弈树搜索

【作者】

：

李新星

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2009年期

【关键词】

：

六子棋评估函数 TD学习 BP神经元网络两阶段着法选择策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因子大。该特点限制了六子棋程序中博弈树搜索所能够抵达的最大深度,这使得局面的估值就变得特别重要。估值是各种博弈问题中最难以处理的一个问题,局面估值的准确性往往直接决定了选择后继着法的策略的优劣。本文将TD算法与BP神经元网络相结合,首次将其应用于六子棋的局面估值中。该方法利用BP神经元网络做为局面的估值函数,通过TD算法直接从原始经验中学习,自动调整估值函数的参数,将BP神经元网络的有监督学习转换为无监督学习,避免了神经网络在有监督学习下调参容易受人类经验影响的缺陷,同时,BP神经元网络自适应性好,容错能力强,能够自动发现输入实例中与学习目标函数中最相关的特征,适合用于对六子棋复杂局面的估值。考虑到六子棋的特点,为了使TD学习更有效,本文还提出了一种两阶段的着法选择策略。第一阶段的策略是按BP网络置信度和备选着法的估值为其分配权重,然后按概率选择后继着法,具有较大权值的着法被赋予较高的概率；第二阶段的策略是最佳着法的极大极小选择策略。这两种策略的联合使用,使TDConn6在TD学习中兼有探索性和利用性特点。采用以上的方法和策略,本文实现了六子棋程序TDConn6, TDConn6从“零知识”开始学习,经过30000盘的自学习训练后,分别与博弈程序NEUConn6与NEU6Star各对弈1000次,所取得的胜率分别为64.7%和80.5%,从而验证了本文提出的方法和策略是有效的和实用的。

其他文献

基于执行轨迹的缺陷定位研究

随着计算机软件的日益复杂，软件可信的要求越来越高，特别是在航空、航天、金融、证券、交通等领域尤其如此。可信要求软件具有高可靠性和高可用性。软件中隐藏的缺陷数目直接决

学位

软件测试缺陷定位执行轨迹自动化测试

本溪电校教学管理系统的设计与实现

现代经济高速运转的需求带动了信息技术的迅猛发展,而信息化管理成为了企事业单位生存和发展所采用的普遍对策,建设教学管理信息系统是现代学校信息化管理的重要基础和核心内

学位

教学管理B/S数据库设计ASP

基于多核的数据并行编程平台的研究与实现

随着多核处理器的不断发展,应用程序对计算机性能提出了更高的要求,然而由于多核处理器每个核心的处理能力通常都比以往的单核处理器弱,使用多核处理器并不能直接带来高性能,

学位

多核处理器图像处理数据并行编程平台并行程序

关系数据分类算法的研究

传统数据挖掘的对象是单一关系表中的数据。对于许多实际应用,数据是存储在多个关系表中,先要把多关系数据集成到一个单一关系中,这需要大量的预处理工作,并且会导致信息丢失

学位

数据挖掘分类关系分类朴素贝叶斯神经网络

基于不变流形的地月低能转移轨道的优化设计

月球作为与地球关系最为密切的天体，对月球进行探测是人类深空探测的第一步。近年来，许多国家先后宣布了新的月球探测计划，表明了自己探月的雄心壮志。地月转移轨道的设计是月球

学位

月球探测不变流形低能转移轨道演化算法多目标优化Hohmann变轨

基于模式和约束的知识图谱模型研究与实现

知识图谱是人工智能技术发展进程中的一大进步，它把非结构化与半结构化数据组织成了同时易于人类与机器理解的图结构，为机器实现智能化提供了知识上的支持。近年来，知识图谱技术

学位

知识图谱校验算子推理算子知识约束

基于执行日志的Web服务QoS获取方法

目前,(?)Veb Services技术正受到产业界和学术界越来越多的关注,其应用也越来越广泛,出现了不少功能相同或相似的Web服务。在功能驱动的Web服务组合中,代表非功能属性的QoS与

学位

Web服务QoSQoS模型日志内容QoS时间点数据Web服务QoS的预测

基于SVG与web2.0技术的网络拓扑管理系统设计与实现

随着当今网络通信技术的高速发展,网络规模不断的扩大,复杂度不断的增加,如何可视化的管理如此庞大、复杂的网络,成为网络管理系统面临的一项重大任务。可视化的管理可以分为

学位

网络管理拓扑图web2.0可升级矢量图形Push

DAS模型中支持准确查询的数据加密与密文索引技术

对密文关系的查询处理是DAS模型面临的主要问题之一。目前,现有加密方案和索引方法均存在查询命中率低的缺陷,造成了不必要的网络堵塞。减少查询结果中冗余数据的数量是解决

学位

DAS模型加密数据库密文索引准确查询字符数据数值数据

系统发生分析的蚁群算法研究

系统发生分析领域的多序列比对和系统发生树构建等问题都是NP-难问题。本文针对这些问题,对蚁群算法进行性能改进及参数分析,提出两种改进蚁群算法；并基于蚁群算法提出两种多

学位

系统发生分析多序列比对蚁群算法性能参数

六子棋中基于BP-TD学习的局面估值方法研究

与本文相关的学术论文