基于迁移学习的多粒度强化学习算法设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:shuang901014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是解决决策和控制问题的一种有效方法,然而对数据依赖性高、学习时间长、易发生维数灾难,如何提高强化学习的学习效率成为关键。多粒度模型描述方法以智能体为中心,是一种对环境和对象进行建模的信息表示方法,而迁移学习能够通过对先前特征信息和数据经验的学习,将一个或多个源域任务的学习经验用于解决新的任务。由于环境存在不确定性,单纯的迁移强化学习可能会存在负迁移等问题,因此本文在强化学习、多粒度模型和迁移学习研究的基础上,提出基于迁移学习的多粒度强化学习方法。在多粒度强化学习中,对环境模型进行粒度化,提高强化学习和迁移学习算法对环境的认知和理解,避免维数灾难和负迁移,从而提高迁移强化学习的效率。学习过程中使用多粒度模型作为知识迁移的对象和载体,在不同粒度之间架起了学习迁移的桥梁,设计了多粒度迁移强化学习算法。此外,针对提出的算法,利用迷宫问题和倒立摆问题进行了多组实验仿真,并完成了移动机器人导航控制实验,以验证所研究方法的有效性。本文具体内容包括:(1)定义了多粒度模型,系统提出了基于迁移学习的多粒度强化学习算法,包括从细粒度到粗粒度的迁移、粗粒度到细粒度的迁移,以及相似任务不同粒度间的迁移,详细说明了算法原理及流程;(2)针对典型应用,即栅格迷宫问题、倒立摆控制问题以及室内导航问题,分别设计了数值仿真实验和实际系统实验,验证基于迁移学习的多粒度强化学习算法的有效性,并对实验结果进行分析与讨论。相关结果对于强化学习算法及典型应用的研究具有重要的参考价值和实用意义。
其他文献
一个完整的住房市场,应当由住房买卖市场和住房租赁市场共同构成。合理的住房市场是保障民生、促进经济和谐发展的重要条件之一。但是目前惠州市乃至我国,明显存在“重售轻租
“十二五”时期,广东适应经济发展新常态,圆满完成了“十二五”时期目标任务。“十三五”时期是全面建设小康社会的决胜阶段,广东省稳中求进,继续推进供给侧结构性改革,适当
随着中国经济的持续发展,汽车作为便捷、高效的交通工具逐渐进入了千家万户,但与此同时也发生了越来越多的交通事故,产生了许多刑事案件。其中,准确认定交通肇事后的逃逸行为一直是难题,这其中涉及到“逃逸”行为的定义、“逃逸”的主客观要件,以及“因逃逸致人死亡”的界定等一系列困扰刑法理论界与实务界的疑难、争议问题。基于此,本文将对上述难题展开进一步研究,以期能对促进相关司法实践的统一性和准确性贡献智识。本文
基于2012年30省份30部门的区域间非竞争型投入产出表,通过投入产出模型测算出生产和消费双重视角下省域间的实际碳排放量,并结合SBM-DEA模型度量碳排放效率。研究结果表明,大
非语言类专业"专业+韩语"教学中存在学生学习韩语动力衰减、缺乏合适有效的教材、与专业课学时冲突等问题。教师应引导学生明确学习目的,增强学习动机;选择合适有效的教材,探索