基于深度强化学习的旋翼无人机端到端伺服控制研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zhangdeyu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人机集群在军民领域中具有巨大的应用前景,吸引了越来越多的研究人员对其关键技术进行攻关。集群中无人机数量众多,在诸如无人机群自主续航、自主回收等场合,无人机自主降落是集群高效管理的核心技术之一。本课题针对无人机自主降落问题,采用深度强化学习实现鲁棒的无人机自主降落,即在深度强化学习的框架下,以图像作为模型的输入,设计端到端的无人机自主降落伺服控制方法,以提高无人机自主降落的智能化水平。课题的主要研究内容如下:(1)在深度强化学习框架下,设计并实现用于解决无人机自主降落问题的值函数Q-learning学习算法。首先将无人机的降落问题描述为马尔科夫决策过程,将无人机下视图像直接作为无人机状态,离散化动作作为无人机行为,并利用无人机位置信息构建奖励回报函数。借助无人机与环境的交互迭代,完成深度强化学习神经网络的训练,实现无人机自主降落的端到端控制。训练过程包括原始Q-learning算法,3DQN(Dueling-Double-Deep Q-learning Network)算法等。为提高训练速度,加速模型收敛,算法进一步引入外部控制器、使用数据库预训练等方式。仿真验证表明,提出的端对端控制算法能够有效地实现无人机自主降落。(2)基于AC(Actor-Critic)框架,借助深度确定性策略梯度(Deep Deterministic Policy Gradient)算法解决无人机端到端自主降落控制,以提高降落的平滑度和加快算法收敛速度。首先引入AC框架,将无人机的控制量由离散取值变为连续取值,并构建策略网络(Actor)和价值网络(Critic)。而后采用深度确定性策略梯度DDPG方法,训练优化模型参数,并通过监测价值网络损失值确定训练终止条件。仿真验证表明,该方式使得无人机的飞行轨迹比离散动作控制更为平滑,且能更为高效地实现收敛。(3)采用基于数据库训练的深度强化学习端到端控制算法,实现了无人机自主降落的飞行验证。将基于深度强化学习算法3DQN、利用数据库进行预训练的深度神经网络模型成功地移植到无人机实物平台,在线测试了真实环境下的无人机自主降落问题。测试结果表明该方法能够将无人机比较准确地降落在地面标识中心点附近,验证了提出的基于深度强化学习端到端控制的有效性。
其他文献
数据分析观念的涵义在《义务教育课程标准(2011版)》中明确提出,是指在解决现实问题之前,意识到问题解决需要调查研究,收集数据,数据分析,总结判断等步骤,并从数据中体会到相关信息。一方面,教学中强调学生在实际数学学习中可以运用多种分析方法去收集和分析数据,能够根据具体问题背景去制定合适的方法。另一方面,教学中注重学生在整个收集、分析和总结数据的过程中的随机性体验,即体会到同样的问题经过多次分析和收
股骨干骨折是一种损伤性外科病种,多因身体遭受不可抗拒的外力导致。现今社会中,因各种意外造成的股骨干骨折事故日益增多。现有的研究主要针对脑卒中、偏瘫等疾病的后期康复,且康复产品的设计大多面向医院和康复机构中。适用于股骨干骨折等需要一定康复周期且易产生问题的病症的康复产品研究较少,特别是此类病症居家康复产品的设计更是十分缺少。股骨干骨折术后的康复需一个长期过程,无论是在住院期间还是在居家康复过程中,康
共享汽车以其便利化的操作和较低的出行费用受到用户的欢迎,在各大城市中迅速发展,但其仍存在用车和停车等运营问题,一方面,网点布局中未能结合共享汽车发展趋势,考虑车位、
乾隆末年清代"藏哲边界"有了较为明确的划分后,清朝曾多次派员巡边勘察界址。1890年《中英会议藏印条约》签订后,英国提出勘界,清朝派员参加。由于西藏地方反对等原因,联合勘
中国武侠电影与传统文化渊源颇深。其中,儒、道、佛文化思想对中国传统色彩观念形成具有重要影响。中国武侠电影通过对中国传统色彩观念的运用,可以在视觉造型层面上为电影注
卫生、消防、隔音,都是问题@退:如果你看到一个美女从里面出来,你当然愿意进去睡,但你要是看到一个脏兮兮的抠脚大汉出来,你还选择在那睡吗?卫生问题不是一个身份登记什么的就
研究目的:了解和探究青少年运动员营养健康现状及其对营养知识的认知状况,并进一步探讨营养指导对运动员营养状况的改善效果,为更好地展开针对该群体的营养教育提供根据。研