论文部分内容阅读
随着人们对无处不在、随时随地进行移动通信、接入互联网的需求愈加迫切,全覆盖和高速率通信业务不断增长,促进了全球空天网络的产生和发展。卫星系统作为空天网络的重要基础设施和主要组成部分,由于近年来制造和发射技术发展,成为部署的新热点。而卫星系统是典型的资源受限系统,虽然多波束天线、频率复用、星上处理等技术日趋成熟,空天网络下高通量、大容量多媒体业务的需求和发展使得卫星资源依然非常紧张。如何通过动态资源分配技术提高卫星系统的频谱、缓存、功率等资源的利用仍是一个关键问题,具有重要的研究意义。本文针对空天网络下的卫星动态资源分配技术进行了研究,主要创新性工作如下:(1)针对现有的卫星动态功率分配算法存在适应星地信道条件、波束流量需求等动态变化的灵活性低的问题,本论文提出了一种在线的多波束卫星系统动态功率分配(Deep Reinforcement Learning-Dynamic Power Allocation,DRL-DPA)算法。该算法基于深度增强学习的方法解决了动态变化环境下的在线序列决策问题,并且基于功率匹配缓存的思路实现了利用波束内实际待传输的缓存数据进行在线功率决策。结果表明,所提DRL-DPA算法相比于现有离线功率分配算法,能够得到5.3%的吞吐量增益。该创新点对应第三章,发表SCI论文1篇。(2)针对现有的卫星信道分配算法未同时考虑到缓存优化的问题,本论文提出了一种多波束卫星系统中缓存受限下的动态信道分配算法。该方法改善了现有算法中吞吐量的提高可能导致缓存资源过度占用或者缓存溢出的不足,将信道分配和缓存约束综合考虑,基于多目标优化(Multi-objective Optimization Problem,MOP)的思想,实现了缓存限制下的用户需求满意度和系统频谱效率的帕累托解集的求解。结果表明,所提算法相比其它算法,缓存节省了 39.16%、业务需求满意度提高了 16.87%、频谱利用率提高了 20.51%。该创新点对应第四章,发表SCI论文1篇。(3)针对现有的卫星信道和功率分配算法不能保障序列决策下的系统累计性能最优的问题,本论文提出了一种基于深度增强学习的多目标优化(Deep Reinforcement Learning-Multi-objective Optimization Problem,DRL-MOP)算法。该算法基于 DRL 和 MOP方法,对动态变化的系统环境和用户到达模型建模,以归一化处理后的频谱效率、能量效率和业务满意度指数的加权和作为优化目标,实现了资源分配的动态决策及系统累计性能的优化。并且分析了算法的复杂度。结果表明,所提算法相比经典元启发算法,能够得到50.51%的频谱效率提升、21.82%的能量效率提升、12.78%的用户需求满意度的提升,算法复杂度低。该创新点对应第五章,发表中文核心期刊论文1篇。