机器人深度强化学习与神经网络控制器优化问题研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:Amjf123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人的路径规划可以粗略地分为任务规划层和动作控制层,在任务规划过程中,一般采用基于规则的决策方法,如状态机,该方法简单易实现,但由于设定的规则数总是有限,因此该方法不适用于动态复杂的环境。在已知环境中,路径规划问题相对简单,因为机器人具有环境的全部先验知识并且周围障碍物的位置是不变的,但是当环境是动态时,机器人难以实时地获得环境中障碍物的变化。基于深度强化学习的端到端学习算法是一种解决该问题的有效方法,与传统方法不同的是,机器人不再听从事先给定的规则去执行任务,而是通过与环境的交互学习到如何完成目标,这种基于学习的方法具有更好的泛化能力,使得机器人能在动态复杂的环境中也能完成相应的目标。对于动作控制,常规的机器人动态控制方法往往受限于精确的数学模型描述,且缺乏足够的非线性表达能力,针对这个问题,本文在大脑情感神经网络的基础上提出了一种小波-Elman模糊大脑情感神经网络,本网络将传统大脑情感神经网络中的杏仁体通道和眶额叶皮层通道分别用Elman神经网络和小波神经网络表达,使得新的网络具有时序记忆能力且拥有更快的收敛能力;除此之外,本文还使用了鲁棒控制器作为神经网络控制器的辅助控制,用以保证动态系统的鲁棒跟踪。为验证所提算法的有效性,本文在机器人仿真软件平台ROS以及V-rep上实现了端到端学习的车道保持;在控制层面,本文设计了不同复杂程度的轮式机器人轨迹跟踪实验以及四轴飞行器自主降落实验,验证了所提出的神经网络控制器的泛化能力与鲁棒性。
其他文献
目前,伴随着移动社交的广泛普及和云计算的蓬勃发展,人们愈发倾向于通过网络获取知识与存储信息,互联网中的数据呈现爆炸性的增长趋势。与此同时,信息安全领域的问题也日益严峻,个人、企业等信息遭到泄露的事件频频爆出,鉴于以上因素,大数据环境下的数据安全成为了研究学者的关注热点。属性基加密机制作为密码学的一个重要分支,通过访问结构与属性集之间的匹配关系实现用户对数据访问权限的控制,高效地解决了“一对多”的秘
属性基加密(ABE,attribute based encryption)相比较于传统的公钥加密体制,保证数据的机密性之外,可以实现一对多及多对多的通信,对密文提供灵活的访问控制。这些优点使得属性基加密机制非常适合现代开放的分布式网络环境,得到学者们广泛的研究。密文策略属性基加密方案中,发送方决定密文的访问策略,实现对接收群体的控制,这使得密文策略属性基加密方案更适合移动社交网络这样的动态场景。然
突触可塑性(synaptic plasticity,SP)与内源可塑性(intrinsic plasticity,IP)是生物脑学习的重要法则。目前,人工神经网络通过借鉴SP的原理引入了权重的概念。尽管少数研究也考虑了IP,但两者协同工作对人工神经网络的影响尚不完全清楚。目前,协同学习的研究都是基于信息熵的浅层网络,且只研究过在数据拟合上的应用。具有抗噪能力的小体量神经网络是当前神经网络领域研究的
研究目的:旋转类难度是艺术体操成套操中必不可少的难度技术,垂直劈腿转体是单足转体中难度大、不易掌握而又能较好体现运动员优美姿态的典型动作,也是个人运动员和集体队使用较多的难度动作。本文的研究目的是通过研究4名优秀艺术体操运动员垂直劈腿转体360°动作运动学参数的变化,发现其运动规律,为教练员训练提供借鉴。研究方法:本研究以艺术体操垂直劈腿转体360°动作为研究对象。运用文献资料法、专家访谈法、实验
随着集成电路技术的快速发展,商用硅基CMOSSOI技术越来越受到射频和微波电路与系统应用的关注。与CMOS工艺相比,由于其具有较低的损耗、良好的噪声和更高的功率容量等因素而
会议
癌症的恶性转化是一个多步骤的过程,在此过程中积累了大量的分子变化。这些分子的变化与肿瘤微环境相互作用,影响肿瘤内的细胞功能。目前,大量的基因变异的记录,但是,基因的改变不足以解释癌症中普遍存在的基因表达改变和细胞功能改变,有报道称表观遗传改变可以取代基因改变导致肿瘤抑制基因[1]的基因表达改变。表观遗传改变是一种可遗传的性状,通过干扰与DNA序列无关的基因表达而影响表型[2,3]。近几十年来,具有
在证券市场上,股票价格联动现象是人们重点关注的话题。提到股价联动,“千股齐涨”、“千股齐跌”的异常现象想必许多人都曾领略过,不少投资者也曾经从中获得收益或出现亏损。中国证券市场尚处于发展之中,股票价格的联动现象比较常见,因此探究引起股价联动的原因是我国资本市场领域的重要任务之一。本文对股价联动现象的研究,是和股票送转股(即送股和转增)行为结合起来的。一般认为中国的股票送转与国外的股票分拆类似,为了
随着供应链管理体系的完善,供应链中任意一个参与方的风险都可能影响到供应链整体的稳定。对于供应链中的中小企业而言,经营资金不足作为影响供应链稳定的重要因素,为其提供安全可靠的融资渠道一直是政府、供应链核心企业和学术界所关注的焦点。在本文中,我们将以由一个供应商和一个存在资金约束的零售商构成的简单供应链为例,对存在资金约束零售商的订货决策问题进行深入探索。对于供应链中存在资金约束的零售商而言,当前主要
青年编辑作为科技期刊的新生力量,担当着期刊发展的重任。笔者总结自身的工作经验,提出了青年编辑自我成长"五气"法,即强底气—努力夯实编辑业务能力,鼓勇气—敢于质疑、敢于
总变分正则化算法已经被证实可以很好的应用于图像恢复中,并且能够保留图像的某些重要的细节信息。但是,应用总变分正则化进行图像恢复时容易产生阶梯效应,导致光滑程度不够,