基于值函数逼近与状态空间分解的增强学习方法研究

被引量 : 0次 | 上传用户:caoyi1014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强学习能有效解决不确定序贯决策优化问题,近年来已发展成为机器学习领域的一个研究热点。如何克服高维连续空间带来的“维数灾难”,实现增强学习算法在连续空间中的泛化,是增强学习进一步发展并向工程应用领域推广的关键,是本文的主要研究内容之一。另一方面,随着应用范围的扩大,移动机器人将面临更加复杂多变的未知环境,这对移动机器人的智能导航控制技术提出了更高的要求。如何提高移动机器人的自主导航能力和对环境的自适应能力,是实现移动机器人在未知环境中成功应用的关键问题。本文对基于值函数逼近与状态空间分解的增强学习方法进行了深入研究,并将其应用于移动机器人在未知环境中的自主避障控制。取得的研究成果包括:1.提出了一种基于k-均值聚类的表示策略迭代学习方法。本文首先研究了基于图拉普拉斯算子的表示策略迭代(RPI)算法,然后利用聚类分析改进了构图点的选择方法,提出了基于k-均值聚类的RPI算法,仿真结果表明该方法能有效提高RPI算法的泛化性能。2.研究并实现了倒立摆系统的实时学习控制。本文在线性值函数逼近方法研究的基础上,将表示策略迭代(RPI)算法及其改进后的算法用于无模型的倒立摆实时学习控制,取得了较好的控制效果,对增强学习的实际工程应用进行了有意义的探索。3.提出了一种基于空间分解的结构化表示策略迭代(HRPI)方法。首先研究了结构化增强学习算法,然后将RPI算法与状态空间分解方法相结合,提出了一种基于状态空间分解的结构化增强学习方法HRPI。该方法根据近似值函数将状态空间分解为不同的子空间,然后在各子空间中分别进行策略学习。仿真结果表明该方法在求解时间最优问题时具有良好的泛化性能。4.提出了一种基于改进RPI的移动机器人自主避障控制方法。本文首先介绍了未知环境中移动机器人自主避障问题的MDP建模方法,然后,将滚动窗口路径规划和RPI算法相结合,提出了一种基于RPI的移动机器人自主避障控制方法,并通过仿真与实验测试了该方法的泛化性能与避障效果。实验结果表明基于RPI的反应式避障导航控制方法能有效实现移动机器人在未知环境中的自主避障。
其他文献
日前,上海市第一中级人民法院(以下简称"上海一中院")收到了一份缓交诉讼费用的申请。法官打开这份申请,只看到申请缓交的说明,并没有提交任何相关证据材料。这份申请是否符
固体酸、碱催化剂是催化剂大家族中的重要组成和成员,近年来越来越受到催化工作者的重视,成为催化领域的研究的热点。固体酸、碱催化剂特别是固体超强酸、碱催化剂因具有较高
情绪与生活息息相关,生活困扰、心理困顿,多由情绪问题造成。如何处理来访者的情绪在咨询过程中是十分重要的。情绪问题处理得是否得当,关系着来访者能否获得自愈的动力和能
在朱天文的作品中,小说内容描绘的世态众生相及字里行间的"苍凉"风格都显现着对张爱玲的承继,同时作品中又时时展露胡兰成式的妩媚文风及博识倾向,因此朱天文被戏称为"张腔"
本文通过对办公自动化-OA的发展过程和发展方向介绍、以及对现在银行办公系统的特点的分析发现,成功地OA系统可以大幅提高银行内信息共享、人员协作与业务监控的效率,从而高
<正>一、对初中化学课堂教学现状的分析化学是逻辑性和实践性较强的一门学科,需要学生深入的思考与实践。目前,中学化学并不受学生和家长们的重视,部分学生和家长认为其并没
目的探讨术前ER、PR阴性表达经新辅助化疗(NACT)后呈阳性表达的乳腺癌患者行序贯内分泌治疗的效果。方法将上述患者随机分为两组,即序贯内分泌治疗组和对照组。序贯内分泌组
目的:探讨胃神经内分泌肿瘤临床病理特点及其预后。方法:回顾性分析近11年收治的52例胃神经内分泌肿瘤的临床及病理资料。结果:全组男39例,女13例,平均年龄59岁。根据WHO(201
50多年来,心理学家普遍认为选择改变了偏好。Brehm首次发现了这一现象,即在具同等吸引力的两对象间做选择后,人们倾向于增加对所选对象的喜爱程度或减少对非选对象的喜爱程度
<正>盆花行情7月到货量41.7万多盆,比6月下滑10.8%,比去年同期上升15%。上旬市场主要以银行界交接带动蝴蝶兰花礼与组合盆栽需求为主。中旬因无特殊用花节日及受高温影响,造