论文部分内容阅读
随着移动通信技术和移动通信设备的发展,人们对于高速率低延时的通信需求越来越大,这给移动通信带来了巨大的挑战和压力。为了应对许可频段资源短缺造成的移动通信系统容量有限、数据传输速率增长有限的现状,学术界和工业界提出了两类解决方案,其一是提高许可频段的频谱资源利用率,其二是将LTE技术引入免许可频段,即LTE-U技术。由于许可频段资源的稀缺性,第一类方案的提升始终有限,相比之下由于免许可频段频带更宽也更空闲,可以显著增加蜂窝移动通信系统的系统容量和数据传输速率,因此LTE-U技术有着广阔的应用前景。然而,LTE-U技术的应用仍面临许多挑战,其中最主要的难题是LTE与WiFi的共存问题,因为LTE-U系统的MAC层采用和LTE系统一样的免竞争的协议,如果不加以控制和管理,LTE-U系统将在免许可频段上对已在此频段上工作的网络设备,特别是应用最广泛的WiFi网络产生严重的影响,使其性能严重恶化。因此能否解决LTE与WiFi的共存问题是LTE-U技术能否成功应用的关键。尽管LTE与WiFi的共存问题已经得到了深入的研究,但大多数研究工作局限于中心式场景,然而在许多场景中,比如小蜂窝网络和WiFi网络密集部署的场景,中心控制节点并不存在,因此这些方案并不实用。为了解决分布式场景中LTE和WiFi的共存问题,本文提出利用机器学习算法,尤其是强化学习算法使得小基站能够通过与环境交互自适应地学习最优决策。不仅限于分布式场景,我们还研究了机器学习算法在中心式场景中的应用,以克服传统方法的一些局限性。本文首先将具有代表性的深度Q值网络学习算法应用于分布式共存系统中的LTE和WiFi共存问题。为了确保WiFi系统和LTE系统之间的公平性以及LTE系统中各小基站之间的公平性,我们提出了一个max-min形式的免许可频段资源分配问题。由于该问题本质上是一种多人博弈,我们将其重新描述为一个合作式博弈问题,并应用多智能体深度Q值网络学习算法使每个小基站可以自适应地学习最优的资源分配决策。为了使算法能更快更好地收敛到纯策略纳什均衡,我们提出了一种特殊的Q学习规则。仿真结果表明我们提出的算法可以快速地收敛到最优纯策略纳什均衡并获得和最优中心式算法一样的性能。其次,我们在第一个工作点的基础上将问题扩展为一个长期的免许可频段资源分配和用户关联问题。我们的目标是最大化LTE系统的长期平均每用户吞吐量,同时保证不同接入技术和不同小基站之间的长期公平性。类似地,我们将问题重新建模为一种非合作式博弈。考虑到问题的时序性,我们提出了一种基于双向长短时记忆网络和策略梯度法的深度强化学习算法,令每个小基站通过与环境交互自适应地学习均衡的混合策略。仿真结果显示我们所提的算法可以收敛到混合策略纳什均衡。此外,仿真结果还表明相比类似于第一个工作点的短期免许可频段资源分配,长期的免许可频段资源分配和用户关联可以通过学习WiFi网络的负载变化规律从而充分利用WiFi网络的空闲时段资源以进一步提高LTE系统的平均吞吐量。最后,我们研究了中心式场景中机器学习算法的一种应用。为了提高LTE-U系统的全局能量效率,我们考虑联合优化资源分配、用户关联和基站睡眠。我们的目标优化问题是一个复杂的混合整数分式规划问题。首先我们通过Dinkelbach算法化分式为减式,然后利用变量替换将原问题转变为标准的混合整数凸规划问题。我们可以利用标准的分支定界法获得混合整数凸规划问题的最优解。然而,由于分支定界法的时间复杂度在最坏情况下是指数,这种复杂度通常是无法被接受的。由于分支定界法的复杂度主要来自其剪枝策略,为了在获得近乎最优的解的同时大大降低分支定界法的时间复杂度,我们基于模仿学习提出了一种剪枝策略学习算法来学习分支定界法的最优剪枝策略。仿真结果表明我们的算法可以大大加速分支定界过程,同时在性能上远胜于一般的启发式算法。