论文部分内容阅读
计算机博弈曾一直被称为是人工智能研究的“果蝇”,但对于有几千年历史的中国象棋的计算机博弈的研究却远远落后于其它棋类,为了改变这种局面,东北大学成立了“棋天大圣”中国象棋计算机博弈代表队。论文选题正是来源于在队内所做的研究工作。
为了解决传统的线性评估函数对中国象棋局面的评估不够精确的问题,本文提出了两个解决方案:一个是使用TD(λ)增强学习算法优化传统的线性评估函数的可调参数;另一个是使用人工神经元BP网络替代传统的线性评估函数,然后使用TD(λ)算法训练该网络。一个中国象棋增强学习系统被设计用来实现这两个方案的学习过程。在该系统中可以使用TD(λ)算法进行四种形式的学习:专家棋谱数据库学习,自学习,固定对手学习和网络对战学习。为了验证学习的效果,设计了一个连线器用于将本系统连接到Internet上的一个网络对战平台—弈天棋缘,通过在网上擂台的等级来评价学习后的棋力提高程度。
实验表明,使用TD(λ)算法训练BP网络的方案潜力巨大,值得进行更深入的研究;使用TD(λ)算法优化线性评估函数的方案实施效果很好,可以大大提高系统的棋力。