论文部分内容阅读
从上世纪40年代起,图灵、香农等计算科学的先驱在国际象棋机器博弈上的探索,到近年来,深蓝、AlphaGo引发的全民关注,机器博弈一直以来都是验证计算理论与人工智能理论的试金石。非完备信息博弈指参与人对某些博弈信息不可知,相比于完备信息博弈,无疑增加了研究的复杂性。研究非完备信息机器博弈产生的成果,可以应用到广泛的领域中,如军事博弈、商业竞争、金融调控等。德州扑克是风靡全球的扑克游戏,被认为是非常战略性的,包含非完备信息、随机事件、部分信息可观测等非完备信息博弈特性,成为人工智能研究的试验台。2015年加拿大Bowling等科学家提出改进的虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)解决了两人限制性德州扑克博弈问题,是非完备信息机器博弈领域的里程碑。但CFR算法还存在两个问题,一为CFR算法是一种离线自训练算法,无法在实际博弈中计算。二为CFR算法仅保证在两人零和博弈中计算出近似纳什均衡策略,是否适用于多人博弈还是一个未知数。本文针对以上两个问题,开展了在线CFR算法和CFR算法应用在多人博弈中的研究。针对CFR不适用于实时场景的问题,提出一种在线CFR算法。对CFR算法的流程、计算等进行深入研究,分析原始CFR算法的计算和迭代过程,对比离线与在线的区别,用统计的方法估计对手的策略,得到CFR在线更新策略所需的虚拟遗憾值。实现的智能体在2016年世界计算机扑克博弈大赛(Annual Computer Poker Competition,ACPC)的两人非限制性德州扑克项目中获得第八名。针对CFR算法仅限于在两人零和博弈中应用的问题,提出CFR算法应用在三人Kuhn扑克中的解决方案。通过剖析CFR算法在两人零和博弈中收敛到近似纳什均衡策略的证明,给出CFR算法在3人零和博弈中收敛到近似纳什均衡策略的证明。通过分析博弈论中纳什均衡概念与极大极小定理在两人博弈与多人博弈的区别,提出CFR算法应用在三人博弈中的解决方案,即使用原始CFR算法离线计算近似纳什均衡策略后,在对弈过程中应用在线CFR算法根据对手动作实时对离线策略进行更改,以便于更好的利用对手弱点,增加己方收益。实现的智能体在ACPC平台上进行了实验,验证了算法的有效性。