基于多特征与状态相似度的操作任务学习

来源 :山东大学 | 被引量 : 0次 | 上传用户:jing4912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在家庭环境下,让机器人具备多种操作技能可以完成更多复杂的家政任务,为用户提供更好的服务体验。已有技能学习方法需要大量的训练数据,对硬件要求高,特别是不能利用已经学到的技能加速新技能的训练,训练时间长且难以收敛。为了让机器人在环境中快速地学习到不同的技能,其中的关键性问题主要有两个,一是如何对复杂的环境状态进行高效简洁的表示,二是如何在不同操作任务的技能策略之间实现知识共享。针对以上问题,本文提出了一种针对不同操作任务的快速技能学习算法,多特征(Multi-Info)网络提取到的状态高级特征作为技能策略网络的输入数据,通过在不同任务的技能策略之间共享相似状态数据达到知识共享的目的,使用改进的策略梯度强化学习算法实现操作任务的快速技能学习。具体研究内容和创新点包括:1、设计了两种状态表示学习模型的网络结构,针对不同的操作任务,首先使用随机初始化的技能策略在环境中采集状态数据集,然后训练基于自动编码器的状态表示学习模型用来提取状态的普通静态特征,接着训练满足五种先验知识的状态表示学习模型用来提取状态的高级动态特征,最后这些特征能够加速技能策略模型的训练过程,为实现快速的技能学习奠定了基础。2、提出一种带有上下文动态信息的多特征权重混合策略,结合了两种状态表示学习模型的静态与动态特征,首先在固定时间窗口内对不同模型的特征数据进行批量标准化处理,得到均匀分布的特征数据,然后在混合特征中添加机器人在环境中执行动作后得到的奖励值作为偏执项,可以增加奖励值高的状态特征的权重,减少奖励值低的状态特征的权重,最终得到的混合特征能够有效解决不同模型特征之间的权重大小问题和保留特征的上下文动态信息,使得技能策略的模型训练过程更加快速和稳定。3、提出一种在不同操作任务的技能策略之间进行高效知识共享的样本相似度计算方法,使用改进的策略梯度强化学习算法训练技能学习模型,首先训练机械臂策略模型在一个操作任务中收敛到最优策略,然后针对新的操作任务的策略模型训练,利用固定时间窗口内带有上下文信息的特征作为相似度得分的计算向量,通过在新策略模型的训练中加入旧策略产生的相似样本数据,实现知识共享的目的。综上所述,本文提出的基于多特征和状态相似度的改进策略梯度算法解决了对环境状态的高效特征提取和在不同任务的技能策略之间进行高效知识共享的问题,不仅能够实现单一的操作任务,如点击静止按钮和动态移动按钮的技能学习,而且能够在两个不同操作任务的技能策略之间实现知识共享。仿真实验结果表明本文提出的方法不仅能够加速操作任务的技能策略训练,而且可以提升策略的整体性能,与基础算法相比,取得了最高的任务成功率和平均奖励值。
其他文献
渔业行政执法承担着保护渔业资源和监督渔业生产行为的重任,是维护法律权威和保障政策落实的重要力量。随着我国渔业经济发展、捕捞能力增强,渔业生产者的需求和渔业资源衰退
目前,核电作为一种高效的清洁能源,被越来越多的国家所接受和采用。中国核电技术的发展经历了引进、消化、吸收和再创新的过程,经过几十年的积累和实践,正逐步实现自主化、国产化,其中自主堆型“华龙一号”借着“一带一路”的东风走出国门,走向世界。在此背景下,核电领域的分析方法、分析手段、分析软件也日益自主化,根据抗震分析的需要,核电结构全时域分析取代频域法正逐步得到广泛应用。其中,地震动载荷是核电抗震分析的
近年来,随着科技的快速发展,工业大规模生产的控制系统日趋复杂,对系统运行时的安全性的要求也越来越高,而故障诊断就是通过对系统信息的采集,通过一定的分析处理,及时发现系
河北省山药种植面积17万余亩,主要分布于保定地区,但是由于连年种植,土传病害发生严重,严重地块发病率高达90%。山药连作障碍的主要病害之一就是山药“糊头”病。山药“糊头”病的发生使山药商品率大大降低,造成山药减产,轻者减产40%-50%,重者绝收。山药“糊头”病害已经成为制约河北山药产业化发展难题。本研究开展了土壤消毒处理防治山药“糊头”病的药效试验,同时研究了土壤消毒处理对土壤环境的影响。结果如
目的探讨体素内不相干运动扩散加权成像(intravoxel incoherent motion diffusion-weighted imaging,IVIM-DWI)、磁共振动态增强(dynamic contrast enhanced MR,DCE-MRI)扫描部分定量参数对前列腺癌(Prostate cancer,PCa)的诊断价值,并组合形成不同扫描方案寻找最佳检查方案。同时结合PI-RAD
研究目的:以24名有训练和无训练的男性大学生为对象,采用60%VO2max强度进行30min的持续跑台运动,研究有训练者和无训练者安静状态与中等强度持续运动状态能量代谢特征,分析有
神经机器翻译(NMT)模型凭借着优异的翻译性能迅速成为机器翻译领域的主流模型。神经机器翻译模型的训练通常依赖于双语平行语料,是否拥有足够数量的双语平行语料往往是机器翻
目的:本文以《针灸内篇》为研究对象,对该书的学术内容及学术思想进行分析、研究和探讨,对现代针灸临床研究提供理论依据。方法:本研究采用中医文献方法学对《针灸内篇》相关文献进行查找、筛选、收集;采用传统文献学方法对收集的文献进行整理归类;运用医学史方法从学术史的研究“针感”、“十二经穴排列顺序”及“沿皮刺”的拓展过程;运用理论分析方法对文献资料从针灸理论的角度进行分析;运用统计学方法对十四经脉腧穴针刺
路面耦合式(Through-the-road,TTR)混合动力车辆构型是一种在路面上实现动力耦合的混合动力结构类型。通过给发动机增加BSG电机及给非驱动轴增加电驱动桥,即可将传统燃油车辆改造成为TTR构型混合动力车辆。该构型车辆可实现多种驱动模式,配合合理的能量管理策略,可以充分协调车辆动力性及经济性要求,因此具有广阔的发展前景。本文以该构型混合动力车辆为研究对象,根据性能要求进行动力参数匹配,提
如何在地膜减量条件下维持旱地玉米生产力,并有助于土壤培肥是目前旱地农业生态系统管理中的关键问题。土壤微生物在农业生态系统中提供了一系列重要的生态服务,尤其是土壤有