动态环境下的无人机避碰技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:emydisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无人机相关技术及产业的不断发展,其在侦察、农业、物流、娱乐等方面的使用率也逐渐提高。又由于无人机飞行环境的日益复杂,在飞行过程中进行自主避碰已经成为现代无人机保障周边环境以及自身安全所必须具备的能力。自主避碰决策属于典型的智能体决策问题,现有的传统决策方法局限于状态分类和策略选择,难以实现自主决策,且算法性能有限。本文将深度增强学习理论引入无人机自主避碰决策过程。首先将动态障碍环境下的无人机避障问题建模为智能体在变化环境中的动作决策问题,将障碍物和智能体状态及动态变化的环境向量化,作为深度增强网络的输入向量,将深度增强网络的输出转化为智能体的动作。在训练过程中,智能体采用不同的动作,会获得不同的奖励值,依据“不同状态下采用不同动作得到的不同奖励值”,运用反向传播算法更新网络参数,从而在与环境的交互中不断学习以实现智能体(即无人机)的自主决策。使用单网络结构的无人机避障算法由于在估计动作价值时反复取用最大理论价值,导致正向误差的累积,会做出过度乐观的估计。本文将单网络结构变换为双网络结构,在训练学习过程中,解耦了最优动作选择和动作价值估计,降低了单网络结构无人机避障算法的过度估计问题,提高了避障算法的性能。本文在更新网络参数阶段,设立一个用于存储交互经验的回放单元,从中抽取历史经验,以破坏用来更新网络参数的状态-行为-奖励组合的时间相关性。最后,对经验回放算法加以改进,提出了一种深度Q学习指数优先经验回放算法。该算法通过重新设计抽取历史经验时经验重要程度到抽取概率的映射函数,使其在选择需要学习的回放单元时,可以优先自动选择更为重要的回放单元。对比传统算法的单一映射函数,本文提出的的算法既保证了智能体决策的质量、使智能体能够学习到最优的策略,又有效的提升了任务表现、提高了决策效率。在实验仿真验证中,本文首先进行了所提出算法的直观模型策略分析,然后进行了代价函数分析、效率分析以及各算法的任务表现对比。最后通过对比分析改进算法在测试环境和无人机避障模拟环境下的仿真结果,证明了本文所提出的改进算法可以使智能体做出更加高效优质的决策,即在取得更好避障效果的同时花费更少的时间。
其他文献
中国对“十五”期间进一步开展特殊教育改革和发展意见,明确了学校要根据残障学生特点,广泛开展多种形式的体育活动和开设体育课,及竞赛,使残障的学生能够掌握正确的体育锻炼方式,形成锻炼身体的习惯,从而促进身体健康的改善(1)。但是,全国组织的七次大型全国体质健康调查和全国学生体质健康标准均为健全学生(2),这些研究和评价标准均忽视了聋哑学生群体。由于聋哑学生与健全学生体质健康水平的显著差异,决定了聋哑学
本文指出由于我国法律不承认双层股权结构,许多本国企业选择到国外资本市场上市,给我国资本市场和投资者造成了一定的损失。文中认为双层股权结构能够保证创始人团队对公司的
目的优选樟帮特色米泔水漂白术炮制工艺,为米泔水漂白术炮制规范提供科学依据。方法采用星点设计-效应面法进行米泔水漂白术炮制工艺设计,以米泔水用量、漂洗时间、漂洗温度
近两年,全球彩电业技术之争越演越烈,一方面,以LG、创维为代表的企业不断发力OLED显示技术,让OLED电视快速实现市场化;另一方面,以TCL、三星为代表的企业致力于液晶显示技术升级,将
报纸
在进行建筑施工作业时,现代科技的不断发展使其相关工作人员能够更为有效地保障工程质量,在此过程中,科学应用BIM技术能够在一定程度上合理优化施工进度,具有极其重要的现实
本文通过熔炼、铸锭以及热处理等工艺流程,成功开发了抗拉强度大于600 MPa,断后延伸率大于45%,减重达10%的Fe-12.6Mn-9Al-0.8C低密度铸钢。通过室温拉伸、室温冲击、硬度、OM
精密挤压彩色相纸生产过程中,涂布表观剐蹭条道是一种常见的难以消除的表观弊病。在不退嘴涂布生产状态下,由于涂布CO张力波动,造成基材在涂布嘴位置抖动,而抖动的片头会造成
TiAl合金具有低密度、高比强、高模量、高蠕变抗力等优异性能,比镍基高温合金减重约50%。影响TiAl合金大规模工业应用的主要障碍表现在两方面:室温塑性不足和加工成形难π度
需求响应是智能电网灵活互动性的一种体现,在电力节能与电网削峰填谷中应用前景广阔.家庭热水器在需求响应中具有极大的优化运行潜力,但难以确定用电费用与热水温度两个目标之间