论文部分内容阅读
卫星移动通信系统具有可靠性高、容量大、全球无缝覆盖通信等优势,在军用和民用通信、应急救援等领域发挥了不可替代的作用,也已成为全球移动通信的重要组成部分。其中,星上可用信道与功率等都是极为有限和珍贵的资源,如何将这些有限资源进行更加自主化、智能化、以及灵活高效的动态分配,对提升卫星通信系统资源利用率和通信性能具有重要意义。因此,本文将强化学习引入到卫星移动通信系统动态资源分配中,进行了如下研究:首先,为方便本文对基于强化学习的动态资源分配算法性能进行评估,使用Matlab语言搭建并实现了卫星移动通信系统动态资源分配仿真平台。该平台利用卫星工具包(Satellite Tool Kit,STK)的卫星系统建模、链路分析等能力,能够完成卫星移动通信信道模拟,以及卫星天线增益、自由空间损耗等链路质量参数计算功能,并且可以模拟终端用户和通信业务量均匀或非均匀分布等多种卫星通信场景。另外,该平台能为资源分配算法提供波束用户业务请求和资源使用情况等环境状态信息,并可模拟资源分配过程,然后计算业务阻塞概率、系统容量等性能指标反馈给资源分配算法,具有较好的灵活性和扩展性,为动态资源分配算法在卫星移动通信环境中的性能评估提供了保障。其次,针对多波束卫星移动通信系统中由业务量非均匀分布特性导致固定信道分配算法资源利用率较低的问题,提出一种基于Q学习的动态信道分配算法。该算法通过卫星智能体感知卫星通信环境中信道分配状态和用户业务请求情况,并根据Q值表制定信道分配策略,为业务请求用户分配信道资源。进一步基于环境奖赏收益信息计算Q值目标误差,再利用多步更新方法完成Q值表的优化更新,进而优化智能体信道分配策略和最小化系统业务阻塞概率。结果表明,所提基于Q学习的动态信道分配算法具有更低的业务阻塞概率和更高的信道利用率。最后,针对业务量在波束间不均匀分布导致卫星通信系统资源利用率较低的问题,并进一步考虑到功率分配对系统信道容量的影响,提出基于深度强化学习的信道功率联合动态资源分配算法。该算法利用卷积神经网络对卫星通信环境的信道分配状态、功率分配状态以及用户业务请求情况进行特征提取,并通过深度Q网络的前向传递完成状态到动作之间的映射,为业务请求用户分配相应的信道和功率资源。进一步基于环境奖赏收益和目标Q网络进行误差函数计算,并通过经验回放技术完成对深度Q网络的反向训练更新,进而最优化信道功率分配策略和最大化卫星系统容量。仿真结果表明,所提算法可以有效提升系统容量和信道功率资源利用率。