基于Q学习算法的非完备信息机器博弈的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hanminaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息,这使得研究起来更复杂,更具挑战性。因此,吸引了大批国内外学者关注。机器博弈系统由数据表示、规则产生器、博弈树搜索和估值函数四部分组成,估值函数是其中最核心的部分。估值函数类似人类的大脑,它有着判断当前局势的优劣,指导智能体选择策略的重要作用。估值函数的好坏,直接反映了计算机博弈智能体的水平高低。因此,对非完备信息机器博弈估值函数进行优化具有重要的意义。本课题将非完备信息机器博弈模型转换为部分可观测马尔科夫决策模型(Partially Observable Markov Decision Processes,POMDP)进行研究,POMDP是强化学习中马尔科夫决策模型(Markov Decision Processes,MDP)的扩展。但强化学习中经典的Q学习算法适用于强化学习中的MDP模型,用到非完备信息机器博弈中会出现状态混淆、无法表示Q值、回报延迟等问题。本课题从状态动作值函数和策略空间搜索两个方面进行探索和研究,提出改进的Q学习算法,用于优化非完备信息机器博弈中的估值函数。针对非完备信息机器博弈中会出现两次观测到的牌局状态信息一样,而实际的牌局状态信息却不一样的状态混淆问题,采用连续的部分观测状态序列与资格迹(Eligibility Trace)结合的方法来解决。针对非完备信息机器博弈中状态空间信息庞大,在两人限制型德州扑克状态就包括3.19×1014个信息集,存在无法通过传统的Q值表示估值函数的问题,采用Q学习与人工神经网络结合的方法来解决。针对在非完备信息机器博弈中,游戏没有结束,无法获知采取当前策略的回报,即回报延迟问题,提出采用基于上限置信区间博弈树搜索(Upper Confidence Bound Applied to Tree,UCT)算法来求取当前策略的回报值。本课题将改进的Q学习算法应用在非完备信息机器博弈的估值函数上,分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息,同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类,与传统的估值函数相比,可以选择更合理的策略。
其他文献
现如今的实体零售业压力越来越大,除了人力、租金等各类租金急速上涨之外,电商对于实体零售商的冲击力度是最大的,在这样的情况之下,有些零售商选择关店止损,有些则进行转型开拓体
报纸
提出用插值函数来计算Log-MAP算法中的校正函数,并在AWGN信道上采用分段差值方法实现了Turbo译码。该算法解决了校正函数计算复杂度较大的问题,消除了译码计算中的指数和对数
针对代理签名中原始签名人可能冒充代理签名人生成有效代理签名这一不安全因素,提出了一种新的基于椭圆曲线离散对数问题(ECDLP)的代理签名方案,并对方案的复杂度与安全性进行
<正>大规模的快速扩张,底气来自于控股股东高鑫零售(06808.HK)和大陆300多家线下门店的支持。砸钱、抢人、抢市场。大润发再次加速了电商布局的步伐,6月9日,大润发正式宣布推
重口味电影在2003年,开始成为商业电影大军中的重要成员。从禁片时代走过来的重口味电影,逐渐开始变成以重口味为卖点的商业片。昆汀、朴赞郁在2003年均贡献了他们杰出的作品
单病例随机对照试验是针对单个患者开展的试验。在开展单病例随机对照试验的过程中,统计分析是一个不可或缺的重要部分。虽然有文献报道了已发表单病例随机对照试验所采用统
据全国乘用车市场信息联席会发布的最新统计数据显示,今年6月份,国内狭义乘用车共销售880040辆,同比增长10%,在经历了较长的低迷期后,整个车市终于止住了连续下滑的颓势,展开
在介绍动态帧时隙ALOHA算法的基础上,提出了一种帧长度调整算法。该方法利用一帧周期中碰撞及正确接收的信息推测阅读器有效范围内可能存在的标签数目,指导阅读器设定适当的值继续下一帧清点。仿真表明该方法具有可行性和实用性。
基于一般正则曲面上测地线的几何特征以及B样条乘积和升阶理论,构造了一类B样条曲面插值预先给定的B样条曲线,使这些曲线成为所构造曲面的边界等参测地线.该方法显式地计算了
导演:闵奎东主演:徐英姬、金甲洙、刘俊相、裴宗玉、朴河宣、柳德焕类型:剧情/家庭上映日期:2011年04月20日(韩国)上半年最受好评的韩国电影去年同期的韩国电影市场,因《方子