论文部分内容阅读
近年来,飞行器控制向智能化发展,将深度强化学习应用于飞行器控制成为备受关注的热门话题。针对此话题,采用基于深度强化学习算法Proximal Policy Optimization和Soft Actor Critic的四旋翼无人机姿态控制策略设计方法,在仿真环境GymFC中进行实验,通过与环境的交互,智能体根据奖励信息优化神经网络参数,使其能够获取最大化的累积奖励。奖励值计算根据参考指令跟踪情况设计,经过训练之后两种策略基本都能实现目标指令的跟踪,但在性能上存在差异。对比分析两者在无人机姿态控制上的表现,可以发现基于Soft Actor Critic的控制策略性能更优。