强化学习及其在Femtocell网络干扰管理中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:qq14203853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的逐步发展以及大数据时代的出现,当下的传统蜂窝网络已然达不到越发增长的数据量的需求,而以Femtocell基站为典型的小型基站不但能够提供良好的通信服务水平,同时还能够有效提升室内的网络覆盖率。但是,Femtocell基站的引入所造成的干扰在对Macrocell用户的通讯服务质量产生影响的同时,也对基站的多方位部署产生了一定的影响。因此对于Femtocell网络干扰管理问题的研究刻不容缓。本文主要探讨强化学习及其在Femtocell网络干扰管理问题中的应用。强化学习作为机器学习中的一个非常活跃的研究领域,对于解决在动态环境中探索出最优的决策问题具有很大的优势,近些年来尤其是2010年之后逐渐成为了Femtocell网络干扰管理问题的一个十分热门的研究方向。由于回报函数从本质上决定着系统学习的目标,因此它的选择至关重要。在此前对于将强化学习应用于Femtocell干扰管理问题中的研究中,其设计的回报函数完全没有考虑Femtocell基站与Macrocell用户之间的距离因素,因此,尽管不同位置的Femtocell基站对Macrocell用户的系统容量的影响大小不同,但所有的Femtocell基站却都以完全相同的方式去学习,其性能必然受到了 一定的限制。本文提出了一个全新的回报函数,该回报函数将基站与用户之间的位置关系考虑了进去,并根据这一全新的回报函数提出了基于改进回报函数的分布式Q学习干扰管理算法。通过在三种位置关系下进行仿真实验对比,本文提出的改进的回报函数相比于改进前能够在很好的保证Macrocell用户的通信服务质量的同时极大的提高整个网络的系统容量。针对传统的强化学习算法收敛过慢的问题,本文结合Femtocell基站的特性,引入了专家系统(Docition)概念,即对于新加入网络的Femtocell基站,它们不需要完全通过自己的学习去获取经验,而可以通过与已经具有学习经验的专家基站互相交换经验信息以使得整个学习过程得以改善。在此基础上,本文改进了之前算法中的状态空间框架并提出了基于专家系统的教学式Q学习干扰管理算法。仿真实验表明,基于专家系统的教学式Q学习干扰管理算法能够有效地提升算法收敛的速度。
其他文献
2月13—14日,2006年军工行业国产数控机床应用座谈会在上海举行,这次会议是国家发改委和国防科工委继2005年大连国产数控机床发展座谈会以来,第二次高层座谈和研讨如何运作数控
我国金鱼的养殖传承历史悠久,已有一千多年的发展。近年来随着生活水平的不断提高,金鱼的养殖在观赏鱼业越来越受到热捧。金鱼的分类较为多样,按传统分类大概分为草金鱼、有
首先阐述完善建筑企业内部控制的必要性,然后基于内部控制角度,分析当前建筑企业财务管理存在的问题,最后提出提高建筑企业财务管理水平的措施,并以中交城投公司为例,介绍企
二语语用能力是二语习得和外语教学领域中备受关注的问题,尤其是中介语语用学研究的重要内容之一。但是目前对于二语语用能力的研究多集中在学习者对二语语言知识和语用规则
党的十八大提出了加强对非公有制经济发展的保护。检察机关作为国家法律监督机关,应当通过完成从忽略忽视向高度重视、从区别对待向平等保护、从被动执法到主动服务三个转变,
新课程理念告诉我们,在教学过程中,学生出现的错误并非一无是处,错误本身乃是达到真理的必然环节,错误也是教学的一种资源。那在教学的过程中,教师该如何面对学生出现的错误呢?现代教学思想的一个重要内容,即是认为学生的错误不可能单纯依靠正面的示范和反复的练习得到纠正,而必须是一个“自我否定”的过程(郑毓信)。让学生经历错误,满足学生的好奇心,让学生大胆探究,经历“自我否定”的过程,从而能更深刻地理解知识的
在2006年1月4日至5日召开的2006年国防科技工业工作会议上,国防科工委表彰了“2005年国防科技工业武器装备型号研制奖”获奖单位和个人。国防科工委副主任陈求发在会上宣读了
<正> 本文回顾性分析2000~2001年间吉林地区交通伤人事故受伤人员伤残程度评定的833例,包括交通事故案情、方式和最佳鉴定时机,以及道路交通事故易发时间和路段。结果表明,交
会议