部分可观察马尔可夫决策过程相关论文
近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略......
随着知识技能日新月异,让训练对象尽可能快的通过学习掌握技能和知识,以满足不同任务的需求,已经成为非常重要的研究课题。因为不......
在面向服务的体系架构中,通过将多个现有的服务集成为一个增值的组合服务以满足更复杂的需求,web服务组合为软件构建提供了一种新......
多小区OFDMA系统中,小区间干扰是影响系统性能的主要因素,干扰协调技术因为其实现简单且干扰抑制效果良好而倍受青睐。本文结合部......
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA.Q.learning算法来求解带有这种不确定性的POMDP问题近......
在认知网络中,为了克服频谱接入方案中系统吞吐量普遍偏低的缺点,运用动态跳频技术,提出一种可以使次用户顺利切换到其他信道同时......
自治式水下机器人在复杂海洋环境航行时要求寻找一条从给定起始点到终止点的较优的运动路径,安全、无碰撞地绕过所有的障碍物。提......
针对无线传感器网络(WSNs)中目标跟踪性能与传感器能量消耗难以平衡问题,提出一种信念重用的WSNs能量高效跟踪算法。使用部分可观察......
部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但......
针对认知无线网络(CRN)中频谱检测准确性与检测效率难以平衡的问题,本文提出一种特征信念的认知无线网络ED/FD协作频谱检测算法。......
对OFDMA系统中的干扰协调进行了研究,提出了一种基于部分可观察马尔可夫决策过程理论的动态干扰协调算法。该算法结合干扰的统计模......
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信......
通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的......
部分可观察马尔可夫决策过程( Partially Observable Markov Decision Processes, POMDPs )是动态不确定环境下序贯决策的理想模型,但......
部分可观察马尔可夫决策过程在策略空间和状态空间上的计算复杂性,使求解其一个最优策略成为NP-hard难题.为此,提出一种动态影响图......
通过分析目标跟踪无线传感器网络监测精度、节点能量消耗与簇成员唤醒/休眠之间的内在联系,针对网络节点能量有限、密集部署节点监......
针对目标追踪无线传感器网络节点能量有限、感知信息存在不确定性等问题,提出一种基于部分可观察马尔可夫决策过程的在线节点调度......
在连续状态的部分可观察马尔可夫决策过程中,在线规划无法同时满足高实时性与低误差的要求。为此,提出一种基于后验信念聚类的在线规......
近年来,动态不确定环境下的智能体在线规划和学习引起了科学界的极大关注,已就智能体在决策时必须考虑各种不确定性作为设计健壮系......
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMD......