基于偏向信息学习的双层强化学习算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:xh7304
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛.
其他文献
目的分析甲状腺癌患者中激励式护理的应用效果。方法将收治的66例甲状腺癌患者作为研究对象,按照抽签法分为常规组(予以常规护理)和干预组(予以激励式护理),各33例。比较两组
1992年6月在巴西里约热内卢召开了联合国环境与发展会议,这次'地球高级会议'为世人所注目,随之,世界环境问题也越来越受到中国人的关注.从本期开始我们设'世界环
在Petri网中,并发和冲突是两个重要的概念,并发和冲突现象混淆的系统特征称之为混惑,当系统存在混惑时获取一个正确的执行以及分析系统性质较为困难,因而存在混惑的系统不是一个
目前电信运营商基本是按自然月进行月结出账,存在实时性差、实时费用不准的问题,难以适应移动互联网的发展模式。基于此,从背景、内容、技术、效果等方面对实时出账进行探讨
随着互联网的发展,传统TCP/IP网络体系结构的IP地址语义过载问题所导致的移动性、扩展性和安全性等方面的缺陷逐渐暴露出来,并限制了多宿主、流量工程等新技术的发展.针对这
<正> 一、概论钢渣产自炼钢过程,其主要成份有:CaO、SiO_2、Al_2O_3、FeO、Fe_2O_3、MgO、MnO、P_2O_5、f-CaO等,根据矿石成份,有时还可能有V_2O_5、TiO_2等.在表1中列入我国
无线传感器网络的首要设计目标即延长网络生命期,而网络拓扑作为上层协议的重要平台,是实现这一目标的支撑基础.为了研究符合网络生命期目标要求的传感器网络拓扑控制方案,针
目的多发性硬化症治疗中,干扰素β-1b+甲基强的松龙冲击方案的临床效果。方法收治多发性硬化患者若干名,其中88例患者自愿参与研究,平均分为两组,对照组实施单纯甲基强的松龙
片上互连网络已日益成为影响片上多处理器性能的重要因素之一.几乎所有的互连结构均是在二维网络的基础上演变发展而来的.首先分析了几种常见的内部结点度均为4的二维网络的静
<正>自1891年重庆被迫开埠后,近代重庆社会便随着中国日益加深的半殖民地半封建化过程而发生深刻变化,并逐渐融入近代中国社会变革和民主革命的大潮。长夜漫漫,巴山蜀水民心