论文部分内容阅读
近年来,随着搜索算法、机器学习算法以及硬件设备的迅速发展,计算机对弈水平不断提高,并在围棋、国际象棋和将棋等多种棋类上战胜了人类世界冠军。一直以来,大多数中国象棋项目的搜索算法是传统剪枝算法,或是基于该算法的优化算法,再加上运行整个系统需要庞大的算力,导致中国象棋在人工智能方面的研究相对落后。针对以上问题,本论文提出了利用强化学习及蒙特卡洛搜索算法相结合的新模式,实现中国象棋自对弈及强化学习系统,并使得该系统能在没有人类棋谱数据状态下,从无到有掌握下棋技能。本论文设计实现的研究工作如下:1.设计实现了一套中国象棋自对弈及强化学习系统,该系统无需人类棋谱数据和监督,通过自我学习进行训练和提升。2.设计实现了一种适用于中国象棋的蒙特卡洛搜索算法,并将其运用于中国象棋自对弈模块中,通过连续自我对弈产生棋谱数据。3.设计构建了一套适用于中国象棋博弈系统的深度强化神经网络,神经网络将在蒙特卡洛搜索过程中提供行棋建议,并通过已产生的棋谱数据进行网络模型训练。4.基于所设计的中国象棋自对弈及强化学习系统,提出了算法优化和参数调节方法,主要包括改进搜索算法来提升系统效率以及灵活调节神经网络参数以训练出较优的网络模型。本论文研究内容有助于提升中国象棋博弈系统的性能,使传统搜索和评估算法得到改进。也能对其他领域的类似博弈问题予以启发作用,有助于推动人工智能在我国的发展。