基于深度强化学习的毫米波大规模MIMO混合预编码

来源 :东南大学 | 被引量 : 0次 | 上传用户:carlos_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
毫米波(Millimeter Wave,mm Wave)通信与大规模多输入多输出(Multiple-Input MultipleOutput,MIMO)技术结合可充分发挥其各自优势。发送端能利用信道状态信息(Channel State Information,CSI)进行预编码,可获得高方向性增益,从而弥补毫米波信号的高路径损耗,以提高系统性能,保证数据的可靠传输。然而,目前在毫米波大规模MIMO系统中广泛采用的混合预编码技术仍存在计算耗时较高、算法收敛性能不佳等问题。近年来,深度强化学习被视为实现强人工智能(Artificial Intelligence,AI)的一项重要技术,并在处理物理层无线通信问题时展现出了强大的能力。因此,本文研究基于深度强化学习的毫米波大规模MIMO系统混合预编码技术。首先,本文研究并总结了强化学习与深度强化学习的理论基础。本文介绍了强化学习的基本概念,给出强化学习适用的问题类型,并介绍了两种主流的强化学习求解思路,即基于值函数的强化学习方法和基于策略梯度的强化学习方法。在此基础上,进一步阐述基于神经网络的深度强化学习算法,该算法利用神经网络拟合值函数或策略梯度函数,可极大提高强化学习智能体的收敛速度。进而,给出了多智能体强化学习的概念及其常见算法,包括Team-Q学习,分布式Q学习,Nash-Q学习以及松散耦合Q学习等。其次,本文针对单用户毫米波大规模MIMO下行传输系统,分别在基站可获得理想和非理想CSI场景下提出了基于深度强化学习的混合预编码算法。在理想CSI场景下,所提算法采用流形优化算法获得可用的模拟预编码矩阵,基于该模拟预编码矩阵采用深度强化学习技术设计发射端数字预编码矩阵与接收端模拟合并矩阵,并结合最小均方误差准则(Minimum Mean Square Error,MMSE)获得接收端数字合并矩阵。采用的深度强化学习算法中,利用确定性策略梯度下降(Deep Deterministic Policy Gradient,DDPG)进行学习训练。深度强化学习智能体以前一迭代时刻的数字预编码和模拟合并阵为状态,以当前迭代时刻的数字预编码和模拟合并矩阵为动作,以当前迭代时刻的用户频谱效率为奖励。进而,针对非理想CSI场景,首先推导了用户频谱效率的上界,并将智能体的奖励函数修正为这一上界,进而基于修正的MMSE准则计算数字合并矩阵。仿真结果表明,所提算法能够实现比传统混合预编码算法更高的频谱效率和更低的误码率。同时,与深度监督学习相比,所提算法可自适应变化的环境且无需大量预定义的训练数据,更具鲁棒性。接下来,本文进一步在单用户系统研究的基础上进行了多用户多输入单输出(Multiple-Input Single-Output,MISO)下行系统混合预编码研究。在基站可获得理想信道状态信息的假设下,提出一种基于深度强化学习的混合预编码设计方法。该方法采用深度强化学习方法设计基站模拟预编码矩阵,每次学习迭代中利用该步所得模拟预编码矩阵降维后的等效信道矩阵进行迫零数字预编码,以消除用户间干扰。对模拟预编码矩阵进行设计的深度强化学习算法中,考虑其非凸的恒模约束条件,基于DDPG算法,以前一迭代时刻的模拟预编码阵为状态,以当前迭代时刻的模拟预编码阵为动作,以当前迭代时刻的系统和速率为奖励,让智能体在线学习最优的模拟预编码矩阵设计策略,以较低的时间开销获得接近最优的系统和速率性能。仿真结果验证了所提算法的性能。最后,针对多用户MISO混合预编码系统中,单智能体强化学习探索效率较低,容易陷入局部最优的问题,本文提出一种基于多智能体深度强化学习的混合预编码算法。所提算法采用动作-评价(Actor-Critic)的强化学习架构,由多个分布式的动作网络、多个改进的带优先级的经验池、一个中心化的评价网络和一个中心化的奖励值预测网络构成。多个动作网络分别探索环境,输出各自的动作,中心化的评价网络基于所有动作网络的状态-动作对,从而协调各个动作网络的探索,使不同动作网络的经验能够彼此共享,加快收敛速度。同时,为所有状态-动作对定义优先级,并随样本存入经验池中,按优先级采样,提高样本利用率。针对强化学习中奖励函数信息量不足的问题,利用中心化的奖励值预测网络对奖励值进行修正,进一步加快算法收敛。
其他文献
随着体外诊断技术的快速发展,设计小型化,便携式的生物芯片已经成为了当前的研究热点。然而目前的检测技术可以实现的检测通量较低,且样本间往往存在不同程度的交叉反应。尤其在新冠疫情背景下医疗资源更为紧张,目前的检测方法很难满足医院里多样本同时检测的需求。垂直流免疫分析技术由于检测时间短,信噪比高和多路复用能力强等优势引起了学者们的广泛关注。基于表面增强拉曼技术的SERS纳米标签具有多重编码能力,且其具有
本研究以H社区青少年性教育小组为例,运用社会工作的理论与方法介入青少年的性教育,来探索以小组工作的方式介入青少年性教育的可行性和有效性,和社会工作理论视角在其中的适用性,并发掘社会工作在青少年性教育领域的实践优势。首先,本研究以“童成课堂儿童性教育——皖家妇儿关爱项目”为依托,对H社区青少年家长进行青少年性教育认知及需求的问卷调查,并结合H社区内对青少年的访谈,分析H社区内青少年面临的性教育需求,
城市交通拥堵的重要原因之一是有限的道路供给资源与高涨的交通需求量不匹配,日益增长的私家车保有量则使这一问题日趋严重。尽管我国城市道路面积逐年上升,但城市交通拥堵却并未得到解决,道路供给资源的增加仍然在不断诱发新的交通需求。为解决以上问题,现阶段我国城市交通管理的思路正从单方面增加供给向需求调控转变,而了解城市交通网络供给水平则是需求调控的重要前提。但是,现有道路通行能力定义及估计方法,缺乏对道路供
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其频谱效率高、可有效抵抗频率选择性衰落而得到广泛的研究和应用。然而实际的应用中存在信道冲激响应的长度可能超过循环前缀(Cyclic Prefix,CP)长度的情况,称之为CP不充分。CP不充分会造成接收信号中存在子载波间干扰(Inter-carrier Interference,IC
聚苯乙烯微球相较于其他材料微球具有刚性强、化学稳定性好、耐腐蚀等优良的物理化学性质,因此被广泛应用于标准计量、合成模板、生物科学、环境科学等领域。这其中,单分散的聚苯乙烯微球可直接作为尺寸标准微粒,而带有不同官能团的聚苯乙烯微球可以通过和抗原、抗体结合在生物检测、靶向治疗等方面发挥重要作用。然而我国现有微球技术与世界先进水平仍有一定的差距,这对我国的发展产生了一定的影响。本研究结合目前国内引发剂、
语音分离作为语音信号处理系统的前端,其分离效果直接关系到后续语音信号处理的性能。目前传统的语音分离算法在低信噪比和高混响环境下性能下降明显。本文在人耳听觉感知特性的基础上,根据语音信号的空间特征,研究了基于深度学习算法的双耳语音分离算法:基于门控循环网络GRU(Gated Recurrent Unit)和幅度谱掩膜SMM(Spectral Magnitude Mask)的双耳语音分离算法,基于时间
对短时交通流预测理论技术及其实践应用的研究,对缓解日益突出的交通问题,提高城市交通系统的运行效率,完善城市智能交通系统,建设城市虚拟交通系统具有重要意义。本文依次从理论技术、预测模型、实验测试、实践应用深入研究了短时交通流预测问题。首先,本文探究了交通数据收集、交通流预测原理、缺失数据补全、异常数据处理等技术,尤其是针对交通流时间序列中的异常变化,提出了基于改进正态分布的异常数据矫正技术,为预测模
近年来,随着互联网技术、计算机技术的发展与广泛应用,且在职业学院不断扩建、扩招的作用下,如何高效解决职业学院广大师生面临的上网问题,逐渐成为了职业学院信息化管理部门需要及时解决的重要问题。为了不断提高职业学院上网效率,本文设计并实现了一套面向职业学院的上网认证计费系统,为推动职业学院校园网的健康、和谐发展提供了一种可行的解决方案。本文提出的面向职业学院的上网认证计费系统以J2EE作为开发平台,将R
随着电子科学技术的发展与进步,无线电波的使用迈向了更高的亚毫米-太赫兹频段,并且在雷达成像、无接触式安防、以及目标检测与跟踪等领域获得了广泛的研究与应用。此外天线作为无线通信系统中的核心部件之一,其波束扫描能力的优劣将直接影响整个系统的性能。故本课题的研究内容为太赫兹扫描天线,主要分为三个部分:太赫兹扫描成像系统,太赫兹单脉冲扫描天线以及激光控制扫描天线。太赫兹成像是太赫兹领域两大关键技术之一。本
现代便携式电子设备和大功率交通工具的快速发展加大了对移动能源的需求,锂离子电池具有体积可控、能量密度高、使用寿命长等诸多优点,被认为是最具发展潜力的能量储存与转技术之一。在锂离子电池组成部分中,正极材料的成本高达33.2%,占整个电池成本的最大比例,因此寻找成本低且性能高的正极材料在锂离子电池发展中尤为重要。阳离子无序金属氧化物一直被认为不具有电化学活性而不受重视,但近年来有实验和理论证明当该材料