基于Q学习算法的非完备信息机器博弈的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：hanminaaaa

【摘要】

：

非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息,这使得研究起来更复杂,更具挑战性。因此,吸引了大批国内外学者关注。机器博弈系统由数据表

【作者】

：

李昌

【出处】

：

哈尔滨工业大学

【发表日期】

：

2015年期

【关键词】

：

Q学习非完备信息博弈 POMDP模型人工神经网络 UCT算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息,这使得研究起来更复杂,更具挑战性。因此,吸引了大批国内外学者关注。机器博弈系统由数据表示、规则产生器、博弈树搜索和估值函数四部分组成,估值函数是其中最核心的部分。估值函数类似人类的大脑,它有着判断当前局势的优劣,指导智能体选择策略的重要作用。估值函数的好坏,直接反映了计算机博弈智能体的水平高低。因此,对非完备信息机器博弈估值函数进行优化具有重要的意义。本课题将非完备信息机器博弈模型转换为部分可观测马尔科夫决策模型(Partially Observable Markov Decision Processes,POMDP)进行研究,POMDP是强化学习中马尔科夫决策模型(Markov Decision Processes,MDP)的扩展。但强化学习中经典的Q学习算法适用于强化学习中的MDP模型,用到非完备信息机器博弈中会出现状态混淆、无法表示Q值、回报延迟等问题。本课题从状态动作值函数和策略空间搜索两个方面进行探索和研究,提出改进的Q学习算法,用于优化非完备信息机器博弈中的估值函数。针对非完备信息机器博弈中会出现两次观测到的牌局状态信息一样,而实际的牌局状态信息却不一样的状态混淆问题,采用连续的部分观测状态序列与资格迹(Eligibility Trace)结合的方法来解决。针对非完备信息机器博弈中状态空间信息庞大,在两人限制型德州扑克状态就包括3.19×1014个信息集,存在无法通过传统的Q值表示估值函数的问题,采用Q学习与人工神经网络结合的方法来解决。针对在非完备信息机器博弈中,游戏没有结束,无法获知采取当前策略的回报,即回报延迟问题,提出采用基于上限置信区间博弈树搜索(Upper Confidence Bound Applied to Tree,UCT)算法来求取当前策略的回报值。本课题将改进的Q学习算法应用在非完备信息机器博弈的估值函数上,分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息,同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类,与传统的估值函数相比,可以选择更合理的策略。

其他文献

黄明端的电商梦

现如今的实体零售业压力越来越大，除了人力、租金等各类租金急速上涨之外，电商对于实体零售商的冲击力度是最大的，在这样的情况之下，有些零售商选择关店止损，有些则进行转型开拓体

报纸

低复杂度Log-MAP译码算法的研究

提出用插值函数来计算Log-MAP算法中的校正函数,并在AWGN信道上采用分段差值方法实现了Turbo译码。该算法解决了校正函数计算复杂度较大的问题,消除了译码计算中的指数和对数

期刊

TURBO码MAP算法二次样条函数HERMITE插值Turbo codes MAP algorithm quadratic spline functio

椭圆曲线的保护代理数字签名方案

针对代理签名中原始签名人可能冒充代理签名人生成有效代理签名这一不安全因素,提出了一种新的基于椭圆曲线离散对数问题（ECDLP）的代理签名方案,并对方案的复杂度与安全性进行

期刊

数字签名代理数字签名椭圆曲线离散对数问题digital signature proxy digital signature Elliptic Curve

大润发的筹码

<正>大规模的快速扩张,底气来自于控股股东高鑫零售(06808.HK)和大陆300多家线下门店的支持。砸钱、抢人、抢市场。大润发再次加速了电商布局的步伐,6月9日,大润发正式宣布推

期刊

大润发电商平台

单病例随机对照试验的统计分析方法

单病例随机对照试验是针对单个患者开展的试验。在开展单病例随机对照试验的过程中,统计分析是一个不可或缺的重要部分。虽然有文献报道了已发表单病例随机对照试验所采用统

期刊

单病例随机对照试验统计分析

一种ALOHA算法的帧长度调整方法

在介绍动态帧时隙ALOHA算法的基础上,提出了一种帧长度调整算法。该方法利用一帧周期中碰撞及正确接收的信息推测阅读器有效范围内可能存在的标签数目,指导阅读器设定适当的值继续下一帧清点。仿真表明该方法具有可行性和实用性。

期刊

无线射频识别(RFID)帧时隙ALOHA防碰撞Radio Frequency Identification Devices （RFID） frame s

过等参测地线的B样条曲面重构

基于一般正则曲面上测地线的几何特征以及B样条乘积和升阶理论,构造了一类B样条曲面插值预先给定的B样条曲线,使这些曲线成为所构造曲面的边界等参测地线.该方法显式地计算了

期刊

B样条曲面B样条乘积插值测地线B-spline surfaces products of B-spline interpolation geodesic

基于Q学习算法的非完备信息机器博弈的研究

其他学术论文