论文部分内容阅读
卫星通信作为空天地一体化网络的重要组成部分,是陆地通信系统的延伸和补充,也是国家经济发展和军事科学重要战略制高点。随着业务量增长和星上可用频谱资源的持续消耗,高通量卫星(High Throughput Satellite,HTS)系统通过点波束实现多个高增益、窄波束共同覆盖较大区域,并且通过频率复用技术有效提升了卫星频谱资源利用率和数据吞吐量。然而,随着多媒体业务崛起带来频谱资源需求上涨问题,HTS系统依然难以满足复杂的业务需求。高通量卫星系统作为典型的资源受限系统,如何动态、灵活地分配星上稀缺频谱资源,为地面波束小区提供通信服务得到了国内外学者的高度重视,即如何高效、合理、快速地为用户分配频谱资源,在保障用户服务质量(Quality of Service,QoS)的同时,有效提高频谱资源利用率和系统容量匹配度。近年来,深度强化学习技术尝试应用在高通量卫星通信中,但是随着波束规模增加会引起状态-动作空间维度增长的问题,从而导致训练复杂度显著提高。针对上述问题,本文基于DVB-S2X高通量卫星通信系统提出了一种基于Actor-Critic模式深度强化学习算法的频谱资源智能管理方法。首先,搭建了高通量卫星频谱资源管理仿真平台,并对高通量卫星通信场景下频谱资源管理中的优化问题进行理论分析并建立多目标优化模型,然后根据高通量卫星通信实际约束条件设计了适用于高通量卫星通信的收益变换机制,提出一种基于近端策略优化的高通量卫星高效频谱动态管理方法,可支持高通量卫星通信场景下的多维动作输出,具有计算复杂度低、训练效率高、实时性高等优点。仿真结果表明,与传统静态频谱资源分配方法、基于模拟退火算法以及基于常规深度强化学习算法的动态频谱资源管理方法相比,所提方法在保证各波束业务请求量匹配度与用户满意度的前提下,可有效提高频谱资源利用率和降低算法的计算复杂度,具有高实时性和高训练效率,满足大规模高通量卫星通信场景的频谱资源智能管理需求。