中国象棋自对弈及强化学习系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lq306330997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着搜索算法、机器学习算法以及硬件设备的迅速发展,计算机对弈水平不断提高,并在围棋、国际象棋和将棋等多种棋类上战胜了人类世界冠军。一直以来,大多数中国象棋项目的搜索算法是传统剪枝算法,或是基于该算法的优化算法,再加上运行整个系统需要庞大的算力,导致中国象棋在人工智能方面的研究相对落后。针对以上问题,本论文提出了利用强化学习及蒙特卡洛搜索算法相结合的新模式,实现中国象棋自对弈及强化学习系统,并使得该系统能在没有人类棋谱数据状态下,从无到有掌握下棋技能。本论文设计实现的研究工作如下:1.设计实现了一套中国象棋自对弈及强化学习系统,该系统无需人类棋谱数据和监督,通过自我学习进行训练和提升。2.设计实现了一种适用于中国象棋的蒙特卡洛搜索算法,并将其运用于中国象棋自对弈模块中,通过连续自我对弈产生棋谱数据。3.设计构建了一套适用于中国象棋博弈系统的深度强化神经网络,神经网络将在蒙特卡洛搜索过程中提供行棋建议,并通过已产生的棋谱数据进行网络模型训练。4.基于所设计的中国象棋自对弈及强化学习系统,提出了算法优化和参数调节方法,主要包括改进搜索算法来提升系统效率以及灵活调节神经网络参数以训练出较优的网络模型。本论文研究内容有助于提升中国象棋博弈系统的性能,使传统搜索和评估算法得到改进。也能对其他领域的类似博弈问题予以启发作用,有助于推动人工智能在我国的发展。
其他文献
随着时代的发展,国民对教育的重视程度与日俱增,连锁型培训机构迎来了巨大的市场。面对庞大的资源数据和繁杂的客户群体,连锁型培训机构需要构建一个资源整合的管理平台来实现更好的运营。本文基于高效运营的原则构建一个整合某连锁型培训机构总部资源的管理平台,可实现对总部资源的高效管理。本文首先对连锁型培训机构总部管理平台的业务和用户角色进行了深入分析,并整理了系统登录、培训门店、培训设备、课程、系统、评测、财
高水材料巷旁充填沿空留巷技术为实现煤炭资源的高采出率提供了可能.为减少巷道采掘成本,本文以杨村煤矿掘进工作面为研究背景,采用高水材料巷旁充填进行护巷.试验结果表明:巷旁充填宽度为1 m,高水材料水灰比为2:1,同时辅以超前加固技术及巷道补强支护可以保证沿空留巷效果.此技术可减少巷道掘进量,节约成本,同时有效控制了沿空留巷围岩的变形,保证了煤炭资源安全高产高效开采.