论文部分内容阅读
随着商业航天的发展,卫星的数目呈现出规模化增加的趋势,然而航天测控系统中的测控资源数量相对有限,因而如何对现有测控资源进行有效调度,是在有限测控资源的条件下完成测控任务的关键。测控任务的完成是关系到卫星正常运行与用途正确发挥的重要环节,因而对于测控资源调度问题的研究具有重要的意义。由于测控背景的复杂性,多星测控资源调度呈现出复杂性、多样性、动态性的特点,并且存在测控场景动态性强、测控冲突复杂以及测控资源利用合理性的难点。针对多星测控资源调度问题的特点与难点,引入深度强化学习对该问题进行优化决策,以应对海量卫星对测控系统的挑战。主要研究内容如下:
面向多星测控资源调度问题,针对测控资源调度各个要素的特点对测控资源调度问题的实质进行探索。并探究了测控场景中各个要素的数学表示方法,从而完成对测控资源调度问题数学模型的表示,为其进一步的建模与调度奠定基础。
针对多星测控系统中所存在的测控资源利用合理性问题,展开对测控资源调度性能综合评价指标的研究。将任务完成度、测控资源利用度、测控资源利用均衡度三类指标结合起来,利用层次分析法形成对测控资源调度性能进行评价的综合评价指标,作为评价测控资源调度方法对测控资源利用是否合理的标准,为后续对测控资源调度方法的评价以及测控资源调度的实现提供解决问题的基准。
针对多星测控资源调度过程中的测控冲突复杂的问题,展开对测控资源调度问题的马尔科夫决策过程模型的研究。探索了多星测控资源调度问题的马尔科夫决策过程模型中的动作、状态与回报的设计方法,并对其进行形象化的描述。通过对马尔科夫决策过程模型的研究,使得测控资源调度问题中各个要素的描述更为合理。
针对多星测控资源调度问题中的测控场景的动态性,利用深度强化学习算法中智能体与环境的频繁交互,实时感知测控资源调度场景的变化的特性,解决测控资源调度问题。通过对基于异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法(深度强化学习算法之一)的测控资源调度框架的设计、对测控场景的合理设置、对算法相关参数的调整,实现测控资源调度在测控任务完成与测控资源利用两个方面的综合最优化,从而验证了基于A3C的多星测控资源调度方法的适用性。并通过对不同调度算法的对比,验证了基于A3C的多星测控资源调度方法的有效性。
面向多星测控资源调度问题,针对测控资源调度各个要素的特点对测控资源调度问题的实质进行探索。并探究了测控场景中各个要素的数学表示方法,从而完成对测控资源调度问题数学模型的表示,为其进一步的建模与调度奠定基础。
针对多星测控系统中所存在的测控资源利用合理性问题,展开对测控资源调度性能综合评价指标的研究。将任务完成度、测控资源利用度、测控资源利用均衡度三类指标结合起来,利用层次分析法形成对测控资源调度性能进行评价的综合评价指标,作为评价测控资源调度方法对测控资源利用是否合理的标准,为后续对测控资源调度方法的评价以及测控资源调度的实现提供解决问题的基准。
针对多星测控资源调度过程中的测控冲突复杂的问题,展开对测控资源调度问题的马尔科夫决策过程模型的研究。探索了多星测控资源调度问题的马尔科夫决策过程模型中的动作、状态与回报的设计方法,并对其进行形象化的描述。通过对马尔科夫决策过程模型的研究,使得测控资源调度问题中各个要素的描述更为合理。
针对多星测控资源调度问题中的测控场景的动态性,利用深度强化学习算法中智能体与环境的频繁交互,实时感知测控资源调度场景的变化的特性,解决测控资源调度问题。通过对基于异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法(深度强化学习算法之一)的测控资源调度框架的设计、对测控场景的合理设置、对算法相关参数的调整,实现测控资源调度在测控任务完成与测控资源利用两个方面的综合最优化,从而验证了基于A3C的多星测控资源调度方法的适用性。并通过对不同调度算法的对比,验证了基于A3C的多星测控资源调度方法的有效性。