基于DoubleBP神经网络的分层强化学习方法

来源 :解放军理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:qq81205690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决复杂状态空间下强化学习agent时学习效率不高的问题,利用Double BP神经网络近似Q函数的方法代替传统的表格记录Q值的方法,并在此基础上引入分层思想——option框架,对动作进行分层,提出了基于double BP神经网络的分层Q学习方法,与基于表格值的Q学习算法,以及基于double BP神经网络的Q学习算法在坦克对战仿真问题上分别进行了对比实验.实验表明,基于double BP神经网络的Q学习算法无论在坦克击中得分,还是坦克存活得分方面,相比传统强化学习方法都有很大提升,而且在学习速度和稳定性上,也有明显改善.结果显示本文提出的基于double BP神经网络的分层Q学习方法,相比传统强化学习Q学习方法,具有收敛速度快,学习效率高的特点.
其他文献
干簧管后期装配对其质量有影响,应用示波器可以监控其质量变化。
<正>我院2010年4月购置了医科达Synergy直线加速器一台并投入使用。医科达Synergy直线加速器系统配备有XVI影像技术的图像引导功能。图像引导是放射治疗的新技术,常用锥形束C
<正> 地质体中的天然气组成复杂多变,导致成因研究困难。然而,长期积累的大量分析资料,己为理论上科学论证提供了可靠的事实依据。本文以热力学理论为基础,联系天然气的实际
利用河南省59a的气象资料,采用Thornthwaite Memoriai模型计算了河南省的气候生产力,用线性回归、M-K突变检验和Kriging空间插值法分析了河南省气候生产力的时空变化特征;最
温度是一个重要的物理量,许多物理现象和化学性质都与温度有关,许多生产过程均在一定温度范围内进行,所以在国民经济各个领域中,必然会遇到有温度测量的问题。而热电偶具有结
为了保障国内天然橡胶需求,我国三大农垦企业正积极实施"走出去"战略。从农业产业链角度来看",走出去"战略的实质上是我国天然橡胶产业链向上游的海外拓展过程;从资源产业链
由于隧道路面所处的环境和使用条件的特殊性,决定了其路面不宜使用常规热拌沥青混合料来铺筑。本文结合郴州至宁远高速公路(郴宁高速公路)的虎形山隧道右洞,选用温拌NovaChip Typ
为了解决现有的谷物测产方法无法直接应用于花生收获过程中的实时测产,以及国外的测产装置无法直接应用于国内的花生收获机械的问题,研发了一种安装于我国自主研制的4HBL-2型
基于幂转换以及不设定扰动项的具体相关结构和分布形式,构建了半参数的短期预测模型来预测中国股市的波动率.模型采用基于极值估计量的两阶段估计法进行估计,估计方法的小样
建立信用制度,发展信用体系,是我国完善社会主义市场经济的必由之路。而信用体系的建立必须以公民与企业的自觉习惯为基础。只有解决了金融意识这种软环境的问题,信用的硬制