马尔可夫决策相关论文
针对拒止环境中多导弹系统易受到恶意干扰而导致弹间链路可用性和传输时效性降低的问题,提出了一种基于多智能体深度确定策略(Multi-......
针对共享单车的调度问题,考虑预算限制、用户最大步行距离限制、用户时空需求以及共享单车分布动态变化的情况下,提出一种用户激励下......
近些年,差异化服务在实践过程中已经很常见。尤其,随着市场竞争越来越激烈,零售商对于供应商库存服务提出了更高的要求。因此,供应......
由于计划生育人口政策以及生活成本增高的影响,我国人口出生率下降,社会老龄化趋势日趋严重。与此同时,老年人随着年龄增长身体健......
脉象识别是中医诊断的重要手段之一.长期以来,依据个人经验进行的脉诊制约了中医的推广与发展.因此,利用传感设备进行脉象识别的研......
基于无线网络的各项应用业务已随着无线网络的普及而日益渗透到我们的生活中,然而无线设备有限的功率资源限制了其在更多的应用业务......
移动中继系统区别于固定中继系统的一个重要特征是信道随时间快速且剧烈的变化,这会对系统产生正反两方面影响:一方面多径传输和严......
随着锂电池技术的发展不断发展,锂离子电池的应用前景也越来越广阔,但是受到电池制造技术和电源管理系统的技术制约,锂电池需要大......
近几年来,强化学习和学徒学习作为机器学习的两个子领域得到了极大的发展。在目前的强化学习技术中,报酬函数的自动构建是迫切需要......
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运......
近年来,用户需求呈现爆炸式增长,不同应用程序对计算需求也越来越大,时延要求越来越高。传统的集中式云计算虽然有充足的计算和存......
电力基础设施作为社会各行各业发展的基础条件,保障其安全可靠运行是十分重要的。近年来,具有高随机性和破坏性的极端灾害事件的频......
学位
IP网络诞生至今已有半个世纪,它对全球经济与社会的发展起到了极大推动作用。随着IP网络规模的扩大、承载业务趋于多元化、服务质......
牵引供电系统是铁路系统的重要组成部分,具有重要的地位与作用。随着健康管理(PHM)与状态维修(CBM)的逐渐引入与推广,对高速铁路维......
本文主要是研究离散时间马尔可夫决策过程最优平稳策略的灵敏度分析及其应用。 全文主要内容由理论基础和实例应用两部分组成。......
近年来,随着易腐商品保鲜技术的成熟以及电子商务环境下的双渠道销售模式的发展,易腐商品的销售策略及其保鲜投入问题的研究受到愈来......
针对移动终端在异构网络环境下,需要在垂直切换过程中进行网络选择的问题,提出一种面向QoS的马尔可夫选择决策算法,通过对算法模型......
基于马尔可夫决策过程理论,将终端直通选择与有限阶段折扣MDP模型相结合,研究网络吞吐量最优化问题。首先利用MDP对终端直通选择进......
得到一类确定型多阶段决策系统的差分方程组模型及该模型稳定解存在的条件并获得稳定解.同时给出该类模型中未知参数的辩识方法.利......
AGV(Automated Guided Vehicle)导航问题是一个连续状态空间问题,直接应用传统表格型增强学习方法存在维数灾难和学习效率低等问题......
介绍了防空作战中的目标分配方法,指出传统方法的不足,并根据防空作战的实际情况,建立了基于马尔可夫决策过程的最优化动态WTA方法......
多UCAV(U nm anned Com bat A ir V eh icle)任务分配是无人机作战决策的重要内容,是一类求解困难的组合优化问题,目前尚无成熟高......
对工程项目报价决策进行了研究,通过与以往常规方法相比较,提出了用马尔可夫决策方法来解决如何确定投标价格水平的问题,并结合具体实......
This paper investigated how to learn the optimal action policies in cooperative multiagent systems if the agents' re......
针对炮兵随行作战时的动态火力目标匹配问题,运用马尔可夫决策理论进行了探索。首先检验了马尔可夫决策理论对动态火力目标匹配的......
以多层拦截巡航导弹为军事背景,建立了相应的排队决策模型。通过此模型可以对多层拦截找到最优决策,此方法切实、有效,较好地应用......
为研究同轴并联式混合动力汽车的能量管理策略,建立了同轴并联式动力系统动态方程,分析了转矩需求无后效性的马尔可夫特性.在维持......
基于电池的额定容量效应和恢复效应的特性,采用脉冲放电策略建立电池组随机模型,马尔可夫决策过程理论和线性规划理论对电池组的放......
本文主要研究循环经济下连续性盘存的随机再制造系统的最优控制问题。在顾客到达时间间隔、回收品到达时间间隔、制造和再制造过程......
在机会网络节点随机移动的场景中,提高路由算法性能评价中的投递率,控制开销率,降低平均迟延是持续的研究方向。由于目前机会网络......
[目的/意义]基于强化学习的图书内容推荐方法可解决传统推荐系统注重推荐列表的准确率,忽略图书推荐的多样性,且无法解决数据信息......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
针对多智能体Q-学习中存在的联合动作指数级增长问题,采用-种局部合作的Q-学习方法,在智能体之间有协作时才考察联合动作,否则只进行......
根据道路试验记录的数据建立驾驶员需求功率的马尔可夫模型,利用马尔可夫决策理论获得混合动力汽车的随机能量管理策略。借助燃料......
TDMA协议是固定分配时隙的MAC协议,由于水声信道具有传播延迟高、带宽窄等特点,水声网络协议的效率较低。本文针对分簇网络结构提......
设计了一种新型的燃料电池混合超级电容的城市客车动力系统结构,在理论计算和工程分析的基础上,对该动力系统进行了参数匹配。提出......
目标分配是防空导弹作战指挥控制中的关键环节,分配的优劣直接关系到防空导弹武器系统的作战效果及整体效能的发挥。文章根据防空......
如何合理分配人员,减少忙闲差异,接应处理繁多而复杂且具有随机性的任务,同时控制成本支出,一直是数据中心急需解决的难题。分析了......
对计算机系统与计算机网络进行资源分配以及任务调度使用的理论工具是动态优化。当前,随着计算系统以及计算网络的发展,国内外已经......
基于马尔可夫决策理论研究理性密码共享系统模型和秘密重构方法。首先利用马尔可夫决策方法,提出适合于理性秘密共享的系统模型,该......
为提高重载组合列车各重联机车无线控制的同步性能,基于800MHz无线电空间波无线传输模式,建立重载组合列车分布动力机车重联控制无......