论文部分内容阅读
随着无人机相关技术及产业的不断发展,其在侦察、农业、物流、娱乐等方面的使用率也逐渐提高。又由于无人机飞行环境的日益复杂,在飞行过程中进行自主避碰已经成为现代无人机保障周边环境以及自身安全所必须具备的能力。自主避碰决策属于典型的智能体决策问题,现有的传统决策方法局限于状态分类和策略选择,难以实现自主决策,且算法性能有限。本文将深度增强学习理论引入无人机自主避碰决策过程。首先将动态障碍环境下的无人机避障问题建模为智能体在变化环境中的动作决策问题,将障碍物和智能体状态及动态变化的环境向量化,作为深度增强网络的输入向量,将深度增强网络的输出转化为智能体的动作。在训练过程中,智能体采用不同的动作,会获得不同的奖励值,依据“不同状态下采用不同动作得到的不同奖励值”,运用反向传播算法更新网络参数,从而在与环境的交互中不断学习以实现智能体(即无人机)的自主决策。使用单网络结构的无人机避障算法由于在估计动作价值时反复取用最大理论价值,导致正向误差的累积,会做出过度乐观的估计。本文将单网络结构变换为双网络结构,在训练学习过程中,解耦了最优动作选择和动作价值估计,降低了单网络结构无人机避障算法的过度估计问题,提高了避障算法的性能。本文在更新网络参数阶段,设立一个用于存储交互经验的回放单元,从中抽取历史经验,以破坏用来更新网络参数的状态-行为-奖励组合的时间相关性。最后,对经验回放算法加以改进,提出了一种深度Q学习指数优先经验回放算法。该算法通过重新设计抽取历史经验时经验重要程度到抽取概率的映射函数,使其在选择需要学习的回放单元时,可以优先自动选择更为重要的回放单元。对比传统算法的单一映射函数,本文提出的的算法既保证了智能体决策的质量、使智能体能够学习到最优的策略,又有效的提升了任务表现、提高了决策效率。在实验仿真验证中,本文首先进行了所提出算法的直观模型策略分析,然后进行了代价函数分析、效率分析以及各算法的任务表现对比。最后通过对比分析改进算法在测试环境和无人机避障模拟环境下的仿真结果,证明了本文所提出的改进算法可以使智能体做出更加高效优质的决策,即在取得更好避障效果的同时花费更少的时间。