连续状态—动作空间下强化学习方法的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:ffg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一类具有多学科交叉特点的机器学习方法,强化学习在复杂的决策优化和控制问题中具有广泛的应用背景。但对于大规模或连续状态和动作空间的马氏决策问题,强化学习面临着“维数灾”问题,从而限制了强化学习方法的进一步推广应用。为此,本文主要在大规模和连续空间下强化学习的理论及算法方面进行系统深入的研究。本文的主要内容和研究成果如下: 首先,研究了离散状态和离散动作空间的强化学习问题,提出了一种基于资格迹机制的加权递归最小二乘多步Q学习算法,能够实现在线增量式学习,有效提高了算法的计算效率,并运用离散鞅理论对算法的收敛性进行了分析。 其次,针对具有连续状态空间下的控制问题,设计出一种自适应的强化学习算法。在Actor-Critic框架下,用一个归一化RBF网络同时逼近Critic的值函数和Actor的策略函数。由于Actor和Critic对网络输入层和隐层资源的共用,使得算法比较简单,同时实现了对状态空间的在线、自适应构建。 第三,提出了一类连续状态与连续动作空间下的加权Q学习算法。利用RBF网络实现标准的Q学习,完成对离散动作效用值的逼近,然后采用加权规则对离散动作的效用值进行加权,得到作用于系统的连续动作,从而实现了将Q学习的应用扩展到具有连续动作空间的控制问题。 第四,利用模糊推理的可理解性与RBF网络的学习能力,首先构建了一类基于模糊RBF网络的模糊强化学习体系结构,然后基于此体系结构,分别设计出模糊Actor-Critic学习和模糊Q学习。这两种学习算法具有泛化性能好、网络结构紧凑、自适应和自学习的特点。 第五,设计出一种基于动态Elman网络预测模型的非线性直接多步预测控制器,将时间差分算法与BP算法相结合,对网络权值的实时调整进行渐进计算,并采用单值预测控制算法进行控制量的在线滚动优化计算。该方法具有结构简单、运算量小、速度快的特点,并且对系统参数的变化具有一定的自适应性。 最后对取得的研究成果进行了总结,并展望了需要进一步研究的工作。
其他文献
医学成像已经成为现代医疗不可或缺的一部分,用不同的成像设备所得到的医学图像信息常常具有互补性,为了综合使用多种医学成像模式以提供更全面的信息,常常需要将有效信息进
动态非线性系统的建模与辨识是自动控制中重要的领域之一,对于很多存在着不确定性和复杂性的实际系统来说,很难使用传统的方法进行建模。而船舶动力系统就是一个船、机、桨配合
目前,由于用电量的增大导致机组装机容量越来越大,同时对电网的调峰要求越发严格。因此对机组自动化系统的控制品质要求很高,而过热汽温作为衡量火电厂运行质量的极为重要的
随着光伏技术的日益发展,对太阳能的利用逐渐从无电地区发展到有电地区,许多国家都推出了光伏发电计划。目前我国在这一方面的应用,主要是在大型电站方面,在家用型屋顶光伏应用还是比较少的。从全球发展趋势来看,小型化、智能化和模块化将是未来光伏并网型逆变器主要发展趋势。在光伏并网发电系统中,逆变器实现把太阳能电池板产生直流电能转化为和电网同频同相的交流电能并且馈入电网,光伏并网逆变器是光伏并网发电系统的枢纽
为了加快我国储罐计量向自动化方向发展的速度,研制和开发低成本、高精度的储罐自动计量系统是非常必要的。本文对储罐自动计量所使用的核心技术:HART通信协议、储罐的计量方
如今在控制科学领域各国研究学者们主要关注的热点问题是如何实现用较少的控制输入达到对多自由度被控对象的控制,这类问题是一类欠驱动控制问题。欠驱动系统指控制输入数目
微创手术与传统手术相比具有切口较小,术后恢复较快,住院时间短的优点。但是微创手术面临医生操作困难等一系列的问题,微创手术机器人可以很好地克服微创手术存在的问题,使微创手
煤矿是国家重要的基础行业,而安全生产又是煤矿最关键的问题,因此应用各种监测监控系统已成为确保安全生产的必要手段。当前现场总线技术方兴未艾,其功能强、性能稳、成本低
本文采用Lagrange方法,从能量的角度对球杆实验系统进行了建模,得到非线性对象模型,又采用Lagrange线性化方法对对象进行线性化,这样就得到了线性理论能够应用的线性模型。但对
人类对石油、天然气需求的不断增长,促进了地球物理勘探技术的快速发展。经过多年的勘探工作之后,一些埋藏较浅、表层地质条件简单的构造油田大多已被发现,现在等待人们去寻