深度强化学习中的值函数模型研究

来源 :贵州大学 | 被引量 : 2次 | 上传用户：legna1212

【摘要】

：

深度强化学习是人工智能研究的热点领域之一,结合深度学习的感知能力和强化学习的决策能力,学界提出了基于深度模型的深度强化学习值函数模型,从而构造出合适的深度强化学习

【作者】

：

夏宗涛

【出处】

：

贵州大学

【发表日期】

：

2019年01期

【关键词】

：

深度学习强化学习优势学习深度Q网络平均深度Q网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习是人工智能研究的热点领域之一,结合深度学习的感知能力和强化学习的决策能力,学界提出了基于深度模型的深度强化学习值函数模型,从而构造出合适的深度强化学习算法,并在状态空间或动作空间巨大的视频游戏任务中获得了很好的效果。随着深度Q网络(Deep-Q-Net,DQN),AlphoGo,rainbow等深度强化学习算法取得了巨大的成功,深度强化学习也获得了学界更多的关注。将强化学习和深度学习相结合的深度强化学习算法存在两个明显的问题:(1)由于深度模型的输出值是估计值,与使用Max算子进行动作选择的强化学习算法相结合会存在严重的过估计问题,导致智能体寻找最优策略的能力下降;(2)由于深度模型固有的不稳定性以及强化学习算法本身存在的稳定性问题,深度强化学习算法也很有可能是不稳定的。本文针对这两个问题,改进了经典的深度强化学习算法的值函数模型,主要工作如下:(1)利用优势学习的思想改进深度Q网络的值函数模型。保证最优值不变的情况下,缩小非最优值,增大最优值和非最优值之间的差值,最终使得即便存在评估误差,深度Q网络也能将当前状态所对应的最优动作选择出来。实验表明,基于优势学习的深度Q网络选择了更优的策略,提高了算法的性能。(2)提出基于更正函数的深度Q网络的值函数模型。针对优势学习中对于不同非最优值的缩小不合理这一问题,提出一个更正函数,使和最优值差值较小的非最优值得到较大的缩小,和最优值差值较大的非最优值得到较小的缩小,最终值函数模型对于当前状态的非最优值的缩小更加合理。实验表明,基于更正函数的深度Q网络相比深度Q网络和基于优势学习的深度Q网络,取得了更好的实验效果。(3)改进平均深度Q网络算法。针对平均深度Q网络中没有采用目标值网络以及训练时间过长的问题,本文探讨了平均深度Q网络训练时间过长的原因同时分析了目标值网络的作用,之后提出新的平均深度Q网络的值函数模型。实验表明,改进的平均深度Q网络提高了算法的性能并减少了模型的训练时间。(4)将SARSA算法引入深度强化学习中。首先分析了深度强化学习算法存在不稳定性的原因,然后利用SARSA算法对深度Q网络的值函数模型进行改进,用动作选择较为“安全”的SARSA算法去替代深度Q网络中动作选择较为激进的Q-Learning算法,从而构造出深度SARSA网络。实验证明,深度SARSA网络提高了算法在部分控制问题上的稳定性同时提升了算法在部分控制问题上的性能。

其他文献

戊己胃漂浮粘附微丸的制备及其药效学研究

戊己丸是中医学经典方剂之一,由黄连、白芍(炒),吴茱萸(制)按6:6:1的比例组成,临床上广泛用于治疗胃溃疡和肠易激综合症。本研究采用熔融制粒法制备了戊己胃漂浮粘附微丸(WJG

学位

戊己胃漂浮粘附微丸乙酸型胃溃疡乙醇型胃溃疡NF-κB信号通路

1，5-AG在T2DM诊断及其与空腹血糖及糖化血红蛋白相关性分析

目的:探讨在2型糖尿病患者中1,5脱水葡萄糖醇检测血糖变化的能力以及在其作为检测指标时与空腹血糖和糖化血红蛋白的相关性及影响因素。方法:选择385名T2DM(Type Diabetes Me

学位

15脱水葡萄糖醇2型糖尿病肾功能

羧甲基茯苓多糖对AV3和HeLa细胞抑制活性研究

经羧甲基化的羧甲基茯苓多糖(CMP)具有广泛的药理学活性,本文研究三种CMP在溶剂中分布的聚集态构型,以及三种CMP诱导AV3和HeLa细胞凋亡的作用机制,筛选出对其有较好抑制作用

学位

羧甲基茯苓多糖聚集态STR鉴定抗肿瘤

基于3D残差密集网络的视频烟雾检测研究

视频烟雾检测技术因其响应速度快、不易受环境因素影响等优势,所以被广泛应用,为早期火灾预警提供有效保障。传统的视频烟雾检测方法主要通过提取烟雾的图像特征,采用机器学

学位

视频烟雾检测机器学习分块运动检测二维卷积神经网络3D残差密集网络

湖北松滋地区下奥陶统层序地层及其对微生物岩的控制作用

自上世纪40年代层序地层学首次被提出以来,层序地层学的研究取得了可观的进展。随着生产和科研的深化,对于层序地层学划分层次也提出了挑战。通过对文献的调研笔者发现,早奥

学位

微生物岩高频旋回早奥陶世刘家场地区沉积环境

基于增强深度特征的行人再识别技术研究

行人再识别是计算机视觉领域中的一项重要技术,其目的在于匹配在不同监控摄像头下出现的行人。特征表示和度量学习是行人再识别技术中的两个关键组成部分。特征表示是一个具有挑战性的问题,因为不同视角下的行人视觉外观可能有很大变化。因此,设计一种有判别力且稳定的特征用于表示行人图像,对于应对行人再识别任务中的众多挑战是至关重要的。本文针对行人再识别算法中存在的问题,提出了一个基于增强深度特征的行人再识别方法。

学位

行人再识别卷积神经网络注意力机制特征融合

髓系细胞触发受体基因多态性与阿尔茨海默病脑脊液标志物相关性分析

研究目的:阿尔茨海默病（Alzheimer’s disease,AD）作为老年期最常见的痴呆类型,病因学和发病机制尚未得到完全阐明,其中β淀粉样蛋白（Aβ）瀑布假说和tau蛋白学说得到广泛支持。因

学位

TREM基因rs9357347阿尔茨海默病基因多态性ADNI

松辽盆地龙深303井区营一段火山岩地震响应及其岩体刻画

松辽盆地英台地区历经30多年的投产开发,现已步入营一段开发潜力风险评价阶段,虽先后针对龙深303井区构造格局、断裂体系、火山岩分布、火山岩气藏特征等开展了大量研究,并在

学位

火山旋回地震响应火山体松辽盆地龙深303井区

芪蟾口服结肠靶向片中有效组分的纯化及其体外抗结肠癌作用的研究

目的研究芪蟾口服结肠靶向片中有效组分的最佳纯化工艺,并进一步研究有效组分对结肠癌CT-26细胞增殖抑制作用及对促凋亡基因Bax、抗凋亡基因Bcl-2、血管生成相关因子VEGF和HI

学位

芪蟾口服结肠靶向片中有效组分纯化增殖凋亡肿瘤血管生成体外抗结肠癌作用

2-噁唑啉酮和1,3-噁嗪酮类化合物的合成方法研究

杂环化合物及其衍生物是生物学工程、食品香料、药物合成以及染料等方面的重要中间体,因其结构的特殊性和其潜在的生理、药理活性使得杂环化合物正在不断的被有机化学家所重视。目前,虽然大量的合成方法不断的被报道出来,但如何利用简单、廉价的制备反应底物,发展一种高产率的功能新颖的杂环类化合物成为了有机化学家们研究的热点。本硕硕以Vilsmeier salts以及α-羟基取代、β-羰基取代的酰胺为底物构建五元杂

学位

螺环氧化吲哚2-噁唑啉-4-酮13-噁嗪酮潜在生理、药理活性

深度强化学习中的值函数模型研究

与本文相关的学术论文