论文部分内容阅读
游戏中智能的设计与构建一直是人工智能研究中的热门领域。游戏中,人工智能不仅要模仿人的智能,还需要拥有达到设计者为了满足玩家需求所设定的目的的能力。通过对游戏信息的收集、积累和归纳,智能体凭借获得的经验对游戏的状态有了一定的预见性,并由此做出合理的反应。
早期的人工智能运行在固定的环境下,作为一个成熟的人工智能,依靠设计者的知识和经验生存在对应的环境中。智能体在决策时获得所有的可操作行为以及对应产生的结果,由此依据当前的情况建立局部或全局决策树。常用的方法有最小最大算法、A*算法、有限状态机等。此类智能体的局限在于必须依靠设计者的经验以及不允许环境发生变化。换言之,设计者必须考虑所有可能的情况,否则当环境变化超出原有预先的设计时,智能体则无法做出正确的行为。
通用游戏策略旨在开发一种没有游戏经验支撑下能够精通各类游戏的人工智能。在仅获得游戏规则的情况下,依靠智能体的学习能力实现经验的累积过程。这对于人工智能的实现有非常大的意义。
本文的主要提出一种适合于通用游戏策略环境下人工智能的设计方法。采用时序差分学习算法解决了游戏经验积累的问题;通过对游戏过程中的状态进行筛选和抽象,提高智能体的决策效率。并实现了对棋类游戏 Tic-Tac-Toe中的人工智能设计。
其次,利用蒙特卡洛抽样方法实现棋牌类游戏中非完备信息向完备信息的转化,从而适用于通用游戏策略。并运用在融合了棋类与牌类规则的Card-TTT游戏中,使智能体在包含了非完备信息的环境中依然可以进行学习和游戏。由此证明了该方法的实际应用价值。
最后,将设计的人工智能参与四种不同的游戏。通过游戏的比赛结果,说明采用本文的设计方法不但能够降低人工智能设计者的要求,而且还能令智能体的游戏能力达到与人类玩家不相上下的程度。