一种基于生成对抗网络的强化学习方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:jsw10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用生成对抗网络生成新的样本以构成虚拟样本池,结合真实样本池和虚拟样本池来批量选择训练样本,以此来提高学习速度。同时,该算法引入了关系修正单元,结合深度神经网络,训练了真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。最后,将所提出的算法与DQN算法应用于OpenAI Gym中的CartPole问题和MountainCar问题,实验结果表明,与DQN算法相比,所提算法可以有效地提高训练初期的学习速度,且收敛时间提高了15%。
其他文献
类胡萝卜素是一大类具有相似结构的化合物,它们是以单双键相间的长多烯链碳原子为中心骨架,在此基础上衍生而来。它们具有重要的生理功能,在抗氧化、抗癌等方面发挥了重要作用,本
目的:通过分析影响妊娠合并系统性红斑狼疮(systemic lupus erythematosus,SLE)妊娠结局的相关因素,同时对相关细胞因子与胎盘病理进行检测,以探讨补体活化对抗磷脂抗体介导妊娠合
高频和微波功率作为电子计量的最基本测量参量,其量值传递系统的研究和建立,完善了我国功率量值传递体系,保证了功率量值的溯源性和统一性,对我国国防和科技发展具有重大意义
<正> 为了进一步解放思想,活跃学术自由讨论,推进中国古代史的研究与教学,《历史研究》杂志社和《社会科学战线》杂志社,最近在吉林省长春市联合召开了中国古代史分期问题学
"为谋取不正当利益"应当成为行贿罪的主观要件,这一要件不应废除而应继续保留。在行贿犯罪中,"谋取不正当利益"是指行贿人谋取违反法律、法规、规章或者政策规定的利益,或者
处置群体性事件要求高、难度大,武警部队在处置行动中,必须坚决贯彻执行国家法律法规和相关要求,正确、合理运用法律武器,依法高效稳妥处置。
目的观察大鼠永久性局灶脑缺血皮质缺血半暗带区(IP)磷酸化应激活化激酶/C-Jun氨基末端激酶(P-SAPK/JNK)及原癌基因c-Myc mRNA转录的表达情况,探讨IP区神经细胞凋亡的可能机
目的 探讨胆胃宁颗粒与奥美拉唑肠溶片联合治疗胃溃疡的临床疗效,同时分析药物治疗对于胃液表皮生长因子(EGF)和胃黏膜组织前列腺素E2(PGE2)含量的影响。方法 将2015-03—2016-10
锗材料的电子迁移率与空穴迁移率都比硅材料的高,而且锗工艺与标准硅工艺兼容。同时在室温下,锗材料导带底直接带与间接带之间相差136meV。因此不论是在高速集成电路,还是在发光
目的探讨原发性肝癌患者医院感染的相关性因素及预防措施。方法采用回顾性调查方法对520例原发性肝癌患者进行分析。结果发生医院感染101例,105例次,医院感染率为19.4%,例次