论文部分内容阅读
强化学习技术从控制理论、统计学、心理学等相关学科发展而来,被认为是设计智能系统的核心技术之一。它对环境知识要求较少,对动态变化环境适应性强,应用于无线网络时兼容性较好,这些特点都使得强化学习与生俱来地成为认知无线电的备选技术,并且具有广泛的应用前景。
本文将强化学习中一个典型的模型,部分感知马尔可夫决策过程(PartiallyObservable Markov Decision Process,POMDP)应用到Ad Hoe机会式频谱接入(Opportunistic Spectrum Access,OSA)网络中研究认知用户频谱感知与接入算法,使其具有较强的学习能力,从而通过认知循环(Cognitive Cycle,CC)高效机会式地接入授权频谱。
然而OSA网络面临的诸多挑战,给我们的研究提出了以下具体的问题,首先在实际情况中,由于硬件的限制及能量的消耗,尤其是伴随突发性业务的认知用户不可能完全感知所有信道的信息,因此我们需要解决部分感知问题;第二,频谱感知接入策略应当同时具备机会识别和探索的能力;第三,如何在面临感知错误时,将对授权用户的干扰限制在一个指定的水平并最大化认知用户吞吐量;第四,频谱机会需要收发端联合识别,当有感知错误时,收发器能够同时跳频。针对上述研究问题,本文利用强化学习中一个典型模型POMDP,设计了减少状态量的基于信念向量的贪心策略算法,将感知与接入联合考虑,并将其应用于完美感知和不完美感知接入两种场景,详细地分类验证了其策略算法的性能;在最后提出了减少状态量的POMDP分布式协作感知接入策略算法;仿真结果表明,本论文的工作达到了预期的研究目标,这些算法能够最大化认知用户吞吐量及系统频谱利用率。