基于ESN的强化学习算法研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:z245713805
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能领域的发展突飞猛进,新的技术和新的方法层出不穷。这其中,借助了神经网络感知优势的深度强化学习更是备受关注。本文选择回声状态网络(Echo State Network,ESN)作为研究对象,并在此基础上对强化学习领域经典算法展开研究。本文主要做了以下几个方面的工作:首先,对传统递归最小二乘法(Recursive Least Squares,RLS)优化的ESN在线学习算法进行优化,提出一种新的基于迷你批的MRLS-ESN优化算法;之后,将MRLS-ESN算法分别与传统策略控制算法Q-learning和Sarsa相结合,进而提出ESNRLS-Q和ESNRLS-Sarsa两种新的策略控制算法;最后,简单探讨了RLS-ESN优化算法在优势演员-评论家(Advantage actor-critic,A2C)算法中的应用。ESN一般采RLS进行优化,虽然RLS具有很快的收敛速度,但每次迭代时仅仅使用一个样本,使得ESN难以适于大规模数据集的处理。为此,首先给出一种ESN迷你批序列学习模型及对应的随机梯度下降和Adam优化算法,然后提出一种新的迷你批RLS优化算法,以提高该ESN模型的训练效率。在此基础上,为了防止所提算法训练ESN过拟合,融入进一种正则化方法。此外,为了使ESN更适于处理时变任务,进一步提出一种面向所提算法的遗忘因子自适应方法。仿真结果表明,所提算法较传统RLS优化算法具有更快的处理速度,并且具有更好的收敛质量。ESN虽然具有简单易用,学习效率高等优点,但受限于智能体状态间的强相关性,基于ESN的策略控制算法难以采用RLS来更新网络参数。针对这一问题,本文提出了两种新的策略控制算法ESNRLS-Q和ESNRLS-Sarsa。首先,采用泄漏积分型ESN和迷你批方式训练,用以减少训练样本间的关联性。其次,采用平均近似的方法更新RLS自相关矩阵,使之适于处理迷你批序列。再次,采用正则化预防过拟合。此外,采用Mellowmax方法计算目标状态-动作值,以提高所提算法的收敛性能。理论分析和仿真实验表明,所提算法不仅具有较低的计算复杂度,而且还具有较好的收敛性能。在A2C算法中,评论家网络参数的优化至关重要。针对评论家网络的优化问题,本文提出一种基于RLS-ESN的A2C算法。首先,借助ESN为评论家网络的训练提供更多有用信息;其次,使用RLS算法对相关参数进行优化,以达到加速算法收敛的目的;最后,在与基于梯度的传统优化算法的比较中,验证了所提算法的有效性。
其他文献
斯里兰卡内战结束后,经济开始恢复,社会发展步入正轨,与此同时旅游业得到了极大发展。斯里兰卡政府采取了一系列措施来发展旅游业:对内进行国家旅游景观和旅游服务的建设,对外在国际旅游市场进行宣传推广。因此在自身拥有丰富旅游资源的条件下,斯里兰卡成为了南亚国家游客的首选旅游目的地。近几年来,随着中国游客的数量的增长,中国已成为斯里兰卡最大的旅游伙伴之一。不过,与其他南亚国家相比,中国赴斯里兰卡旅游的客流仍
为研究晶体氨基酸在植物性蛋白日粮中对黄河鲤鱼的诱食作用及应用效果,本试验首先采用了迷宫诱食试验法,通过重复试验、对比试验及差异分析,系统研究了8种晶体氨基酸对黄河鲤鱼幼鱼的诱食效果,筛选出了具有诱食效果的4种单体氨基酸及其最佳诱食浓度;然后分别以其最佳诱食浓度按4种中任选3种的组合方式组成了4种复合氨基酸诱食剂,进一步筛选出了诱食效果较好的3种复合氨基酸诱食剂;最后选取800尾平均体重为12.81
数字化时代下,交通网络将不再仅仅是铁路、公路、水路、航空几个垂直领域独立的客、货运输,而是综合立体大交通数字化、网络化、智能化服务体系。自动驾驶,无人配送,重点路段恶劣天气行车诱导,停车“无感”收费,“靠面子”就能寄快递、购买高铁、机票,道路桥梁状态“掌上”可知,足不出户即可查询、办理业务……这些“未来派”生活,都离不开数字化。
期刊
目的 :评价基于马斯洛需求层次理论的综合管理措施对提高急诊科护士工作满意度的效果。方法 :对北京市某三级甲等医院急诊科护士实施基于马斯洛需求层次理论的综合管理措施,即实施绩效改革,为护士提供安全、有序的工作环境,增加医护人员沟通与交流,营造尊重、关爱护士的执业氛围,提升护士职业发展水平,为护士提供自我实现的平台等,并调查护士工作满意度的变化。结果 :护士工作满意度总体水平由2018年的(3.46±
伪狂犬病毒(Pseudorabies Virus,PRV)引起的伪狂犬病会导致母猪生产失败和仔猪大量死亡,因此严重危害我国养猪业的发展。自噬是细胞的一种重要清除机制,在病毒感染细胞时发挥重要作用。许多研究表明,多种病毒已经进化出抑制自噬,或者利用自噬完成自身复制的生存机制,因此自噬作为抗病毒药物开发的作用靶点,受到越来越多研究者的关注。多糖是一种天然聚合物,是植物的重要活性成分。据报道,植物多糖具
随着生活水平的日益提高,人们对于食品安全的要求也越来越高,大多数人会选择绿色有机的健康食品。2020年随着国家“禁抗令”的出台,在畜禽生产中寻找无毒无害、无残留的饲料添加剂就显得尤为重要。而黄腐酸作为一类绿色无残留的添加剂,添加于饲粮中可以提高鸡群免疫力,降低鸡舍氨排放量,改善鸡舍环境,降低料蛋比与料肉比,还可避免抗生素残留给人类健康造成的诸多危害。将黄腐酸应用于畜牧业中,可为无抗养殖提供更多现实
近年来,草莓成为重要的经济作物,在世界各地种植广泛,尤其是我国已经成为草莓最大的生产和出口国家,位居世界首位。草莓营养丰富,富含多种维生素,被人们成为“水果皇后”,深受广大消费者喜爱。但是草莓属于劳动密集型产物,草莓的种植和采摘全部依靠人力完成,果农的经济成本高,制约果农的收入。所以,随着农业种植采摘自动化的发展,实现草莓自动化采摘越来越有重要的意义。在过去的三年中,我国关于草莓收获机器人的专利数
在国家政策强调文旅融合的时代大背景下,民俗节庆作为民俗文化传承的重要载体,近年来发展迅速,节庆旅游成为海南新的十大旅游产品之一。然而在传统节庆旅游发展中存在较多问题,比如节庆旅游活动主题重复没有特色,商业性太强,而文化功能偏低等。因此,如何提升传统节庆活动的品牌影响力,是一个值得研究的课题。本文从游客参与的角度出发,在厘清游客参与对旅游体验质量影响的基础上,探究其旅游体验质量的提升路径,并据此创新
将思政元素融入“西班牙语口译”课程教学,在开展专业学科知识教学活动的同时,对学生思想政治观念进行潜移默化地正确引导,不仅有利于学生更深刻地理解思想政治教育的核心内涵,而且可以提升外语专业课程的价值功能,丰富教学内容,改进教学方式,更好地满足现代社会对大学生人才的要求。
意大利蜜蜂是我国主要饲养的蜂种,对维持生态系统平衡和生态环境可持续发展具有不可或缺的作用。但相对于其他蜂种,意大利蜜蜂的抗螨能力较弱。而自本世纪以来,蜂螨危害蜂群的现象越来越普遍,而且范围也越来越广,给养蜂业的发展带来了前所未有的挑战。目前常用杀螨剂的主要成分为氟胺氰菊酯,氟胺氰菊酯是一种使用广泛且相对安全的蜜蜂杀螨剂。在实际生产中,应用氟胺氰菊酯类药物除螨后蜂群出现数量减少,行为异常等现象,给养