有关强化学习的若干问题研究

被引量 : 0次 | 上传用户:TomasZhang_888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习领域中的一个重要研究方向。强化学习系统通过对环境反复试探的方式,学习环境状态到可执行动作的最优反应式映射策略,以获取最大回报。相比于其它学习技术,强化学习的显著优势在于它对先验知识的完备程度几乎没有要求,甚至在环境信息完全未知的情况下,强化学习仍具有较好的自适应性和鲁棒性。现实世界中,大多数的学习问题都具有状态空间或动作空间连续、任务描述难、目标性能不唯一的特点,且对学习算法的实时性和自适应能力有较高的要求。因此,为了拓展强化学习的应用范围,本文在如何提高学习速度和学习效率、如何进行合理的任务描述以及如何考虑多个性能指标的问题上,对强化学习进行了较系统的研究。系统地介绍了一种经典强化学习算法——Q学习算法的基本原理、主要步骤和存在的问题,并研究了它与其它几种常用机器学习技术的组合。研究了强化学习方法中的经验存储和利用问题。在分析了已有的几种有效的、相对独立的经验存储和利用方法的基础上,研究了一种将它们有机结合在一起的强化学习算法,并根据学习状态对时间的变化特性,对这种结合算法进行了改进,以提高学习经验的利用率,从而提高了算法的学习性能。研究了强化学习中的状态空间压缩技术。分别针对离散化的状态空间和连续状态空间的压缩问题,提出了基于信息熵的强化学习算法和基于自主生成神经网络函数逼近器的强化学习算法。前者利用对状态与目标之间的相关程度的度量,可以进一步压缩离散化的状态空间;后者利用进化算法的全局搜索能力来得到合适的函数逼近器结构和参数,可以减轻对神经网络函数逼近器的决策负担。二者均可以起到节约存储资源和计算资源,从而提高学习效率的目的。研究了多目标强化学习方法。针对目标间的不可公度性问题,提出了一种基于模糊推理的多目标强化学习算法。引入决策者对目标的偏好信息,并结合模糊推理系统,为多目标下两个动作决策之间的优劣比较提供了尺度,并为算法指明了学习方向。
其他文献
阿尔茨海默症(Alzheimer Disease,AD)是一种中枢神经系统退行性疾病,又名老年痴呆。它的病理学特征分别是淀粉样蛋白斑和神经纤维结。近些年来,随着β-淀粉样蛋白质(β-amylo
本文通过对吉林市、北京市朝鲜族大中学生的调研,分析其民族认同与国家认同现状,及其认同形成与变化的影响因素。朝鲜族作为中国北方重要的跨界民族,学界对其认同问题的研究
“暴力美学”是上世纪八十年代以后才出现的一个词汇。它最初出现在对香港电影导演吴宇森作品的评论中,慢慢发展成为一种电影风格和表现手法,是对暴力艺术化表现的探索。随后
结合呼蓄电站下水库碾压混凝土坝施工情况,从混凝土原材料、配合比设计、生产、浇筑、温度控制等方面进行了研究,总结分析了严寒地区碾压混凝土施工质量控制要点,保证了工程
社区矫正突出了社区在刑罚领域的地位和矫正工作的实际,仅将罪犯作为矫正对象的概念是狭义的;我国目前的矫正措施基本上是合理的;我国必须设立专门的矫正机构;将人格作为矫正
目的探讨血栓闭塞性脉管炎的外科治疗方法。方法回顾性分析笔者所在医院2010年以来收治的22例血栓闭塞性脉管炎住院患者的临床资料,全部病例均有肢体的缺血性疼痛及下肢溃疡
<正>近年来,伴随着日益突出的少子化问题,韩国出现了各种与育儿有关的变化,人们对社会育儿支援的需求越来越迫切。对此,韩国政府给予了充分的关注,从支持女性参加工作和抚养
学校教育首先是培养学生良好的行为习惯,使学生在学习活动中学习如何做人。笔者当班主任的时间并不长,但我感到带好班级,抓好班集体建设关键还是从学生身边的小事抓起,抓行为习惯
本论文以大苞鞘石斛(Dendrobium wardianum)的种胚为试验材料,对其胚培养和快繁技术进行了系统的研究,建立了大苞鞘石斛的快繁技术体系,为种质资源的保存奠定了基础。试验结
正确分析当下校园网络舆论的现状及其影响因素,探索制定切实可行的舆论引导措施,对于构建和谐的校园文化,维护社会稳定具有十分重大的意义。文章认为做好校园网络舆论引导工作,需