论文部分内容阅读
非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息,这使得研究起来更复杂,更具挑战性。因此,吸引了大批国内外学者关注。机器博弈系统由数据表示、规则产生器、博弈树搜索和估值函数四部分组成,估值函数是其中最核心的部分。估值函数类似人类的大脑,它有着判断当前局势的优劣,指导智能体选择策略的重要作用。估值函数的好坏,直接反映了计算机博弈智能体的水平高低。因此,对非完备信息机器博弈估值函数进行优化具有重要的意义。本课题将非完备信息机器博弈模型转换为部分可观测马尔科夫决策模型(Partially Observable Markov Decision Processes,POMDP)进行研究,POMDP是强化学习中马尔科夫决策模型(Markov Decision Processes,MDP)的扩展。但强化学习中经典的Q学习算法适用于强化学习中的MDP模型,用到非完备信息机器博弈中会出现状态混淆、无法表示Q值、回报延迟等问题。本课题从状态动作值函数和策略空间搜索两个方面进行探索和研究,提出改进的Q学习算法,用于优化非完备信息机器博弈中的估值函数。针对非完备信息机器博弈中会出现两次观测到的牌局状态信息一样,而实际的牌局状态信息却不一样的状态混淆问题,采用连续的部分观测状态序列与资格迹(Eligibility Trace)结合的方法来解决。针对非完备信息机器博弈中状态空间信息庞大,在两人限制型德州扑克状态就包括3.19×1014个信息集,存在无法通过传统的Q值表示估值函数的问题,采用Q学习与人工神经网络结合的方法来解决。针对在非完备信息机器博弈中,游戏没有结束,无法获知采取当前策略的回报,即回报延迟问题,提出采用基于上限置信区间博弈树搜索(Upper Confidence Bound Applied to Tree,UCT)算法来求取当前策略的回报值。本课题将改进的Q学习算法应用在非完备信息机器博弈的估值函数上,分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息,同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类,与传统的估值函数相比,可以选择更合理的策略。