马尔可夫决策过程相关硕士博士期刊学术论文

马尔可夫决策过程相关论文

基于MDP-ADMM的数据中心储能系统优化运行方法

为了缓解数据中心综合运行成本高、电网侧负荷峰谷差大的问题，提出一种基于马尔可夫决策过程与交替方向乘子法结合的数据中心储能系......

期刊

数据中心储能系统负荷转移特性马尔可夫决策过程交替方向乘子法优化运行

ACAS X系统监视跟踪与冲突解脱模块的研究与实现

机载防撞系统是保障飞行安全的重要组成部分,民航客机已被要求必须安装机载防撞系统。随着飞行环境逐渐复杂化,当今广泛使用的机载......

学位

ACAS X STM TRM 卡尔曼滤波马尔可夫决策过程

一种基于局部线性时序逻辑任务描述的多机器人协同规划方法

本文提出了一种基于局部线性时序逻辑任务描述的滚动时域多机器人协同规划在线合成方法,初步解决了如何在建模为马尔可夫决策过程......

会议

线性时序逻辑马尔可夫决策过程模型检测多机器人协同任务规划

基于强化学习的边缘计算网络资源在线分配方法

针对边缘计算应用对实时性的要求,引入软件定义网络和网络功能虚拟化技术对边缘计算网络进行重构.基于此,考虑以最大化长期平均实......

期刊

边缘计算资源分配实时任务马尔可夫决策过程 Q学习深度强化学习

基于马尔可夫的多功能雷达认知干扰决策建模研究

多功能雷达是现代电磁战场上不可或缺的重要装备，针对多功能雷达的干扰一直是一个难题。本文在研究多功能雷达信号特点和雷达对抗过......

期刊

雷达对抗马尔可夫决策过程雷达状态强化学习 Q-Learning

基于后状态强化学习的最优订单接受决策

随着客户多样化需求不断提升，根据客户对订单的不同需求来组织生产的订单生产型（Make-To-Order,MTO）模式在企业生产活动中越来越重要......

期刊

订单接受强化学习马尔可夫决策过程神经网络后状态

基于深度强化学习的节能工艺路线发现方法

由于传统基于固定加工环境的工艺路线制定规则，无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络（deep Q ......

期刊

深度强化学习深度Q网络动态加工环境工艺路线马尔可夫决策过程智能体决策双Q网络启发式算法

基于机器学习的航空器场面滑行路径优化研究

民航业的快速发展为民用航空运输机场带来了大量的起降航班和乘客的同时,影响了民用运输机场的运行效率,增加了机场管制人员的工作......

学位

路径优化最短路径马尔可夫决策过程跑道容量

基于SARSA强化学习的审判人力资源调度方法

为对法官员额资源进行调度优化，平衡司法资源有限和现实司法需求之间的矛盾，该文建立审判人力资源调度优化模型，提出基于强化学习的审......

期刊

强化学习资源调度决策优化贪婪策略马尔可夫决策过程

适用于大规模充电场站的深度强化学习有序充电策略

针对大型充电场站内规模化电动汽车的有序充电问题，提出了一种基于双深度Q网络（DDQN）的深度强化学习的电动汽车充电安排策略，能有效计......

期刊

电动汽车充电场站深度强化学习有序充电维数灾马尔可夫决策过程

基于任务生灭过程模型的边缘计算批处理调度算法分析与设计

移动边缘计算技术为低时延要求、资源敏感的计算任务需求提供解决方案，通过研究任务请求特征以提高调度算法效率是边缘计算的重要研......

期刊

边缘计算生灭过程批处理调度决策马尔可夫决策过程

基于强化学习的雷达干扰资源调度建模研究

在对远程支援干扰飞机雷达干扰资源调度问题具体分析的基础上,基于雷达对抗推演仿真平台,将组网雷达干扰资源调度问题建模为一个带......

会议

雷达干扰资源调度马尔可夫决策过程干扰决策模型 Q-Learning

污水处理精准曝气智能控制方法研究

本文针对污水处理精准曝气过程的智能控制方法进行研究。依靠人工经验的曝气方法存在能源的浪费,为降低曝气能耗,需要对曝气过程进......

学位

污水处理智能曝气案例推理强化学习马尔可夫决策过程

非标机械零部件网上采购平台资源优化调度设计

本文研究非标机械零部件网上采购平台环境下的资源优化调度问题,解决传统的非标机械零部件线下采购中的采购垄断、采购供需间响应......

学位

非标机械零部件静态调度动态调度马尔可夫决策过程

基于自主学习的自动驾驶决策与控制研究

随着全球城市化进程的加速发展,交通安全与拥堵、环境污染等问题日益严重。自动驾驶技术有望解决这些问题,并已成为现代汽车技术的......

学位

自动驾驶深度强化学习马尔可夫决策过程模仿学习

无人机自主引导跟踪与避障的近端策略优化

针对无人机地面动态目标跟踪问题，建立了远距离自主引导与近距离伴飞避障两个阶段的马尔可夫决策过程模型。在此基础上，提出了一种改......

期刊

多旋翼无人机自主引导马尔可夫决策过程近端策略优化长短期记忆

在室人员行为模式对住宅小区供暖系统能耗影响研究

随着我国城镇化的逐步推进和人民对生活舒适度的不断提高,建筑能耗已经逐步成为社会总能耗中不可忽视的组成部分。城镇供暖能耗在......

学位

马尔可夫决策过程人员行为住宅小区供暖能耗能耗模拟

基于模仿学习的机场停机位再分配决策算法

针对机位再分配算法结果难以满足不同操作人员操作习惯的问题，提出一种符合实际业务人员操作习惯的机位再分配推荐算法。首先以航班......

期刊

航空运输停机位分配模仿学习马尔可夫决策过程生成对抗网络

控制系统的学习和优化：马尔可夫性能势理论与方法

本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于......

学位

离散事件动态系统马尔可夫决策过程性能势最优控制在线优化

基于深度学习框架的安全帽佩戴检测方法研究

安全帽是各行各业施工现场工作者和高空作业人员必不可少的一种安全防护工具。进入施工现场前通常要求工人必须佩戴安全帽,但是每......

学位

安全帽佩戴检测深度卷积神经网络平均峰值相关能量马尔可夫决策过程

移动边缘计算架构下基于强化学习的无人机路径规划研究

随着智能设备数量急剧增加,终端用户的计算任务需求远超设备本身计算能力。移动边缘计算架构将服务器资源部署在网络边缘侧,可为终......

学位

移动边缘计算强化学习无人机路径规划马尔可夫决策过程

SDN环境下的移动目标防御技术研究与实现

互联网的高速发展给人们带来便利的同时也产生了各种安全威胁,传统的网络架构与防御技术存在的确定性、同构性和静态性缺陷,导致了......

学位

网络安全移动目标防御软件定义网络马尔可夫决策过程博弈模型

基于Actor-Critic框架的策略探索性能研究

强化学习算法是用于解决序贯决策问题的一类算法,与深度学习算法的结合推动了强化学习算法的发展。智能体通过与环境交互,增加对环......

学位

强化学习马尔可夫决策过程策略的探索性能连续动作空间概率匹配嵌套流模型

随机环境下连续时间马氏决策过程

本文主要研究随机环境下连续时间马尔可夫决策过程的最优控制问题.首先我们给出一些条件证明了在有限时间里最优控制策略的存在性;......

学位

马尔可夫决策过程带切换的扩散过程 ψ-松弛控制随机策略

基于逐次超松弛技术的Double Speedy Q-Learning算法

Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行......

期刊

强化学习 Q-Learning 马尔可夫决策过程逐次超松弛迭代法自循环结构

基于平均奖励的强化学习算法在离散时间系统最优控制中的应用研究

随着控制理论的日益完善,社会生产对于系统的性能以及控制成本提出了更高的要求,最优控制问题受到了越来越广泛的关注。传统的最优......

学位

离散时间系统最优控制马尔可夫决策过程平均奖励强化学习多智能体系统

基于深度强化学习的微型即时战略博弈的研究与实现

在未来战争中,传统的单兵种、单装备间的对抗将被多兵种、多装备对抗所取代。协同电子对抗利用计算机及通信技术将现有电子对抗系......

学位

马尔可夫决策过程多智能体系统深度强化学习即时战略博弈博弈论

计及用户不确定性的多时段耦合需求响应激励优化策略

需求响应项目的实施过程中，用户对激励的实际响应程度存在不确定性，导致调整电量无法达到预期效果。为减少电力资源的浪费，优化资源配......

期刊

多时段耦合实时激励马尔可夫决策过程需求响应不确定性

基于深度强化学习的医用设备应急调度优化技术研究

针对大型医用设备人工管理效率低、无法满足应急调度需求的问题,文中提出了基于深度强化学习算法的医用设备应急调度优化技术。使......

期刊

医用设备应急调度优化算法深度强化学习马尔可夫决策过程贪婪策略 Tanh函数 DDPG算法

可信工业控制网络系统性能属性测度研究

工业控制网络系统是实现工业生产自动化的关键,是衡量国家工业水平的重要指标。随着物联网、大数据、智能技术的发展,其安全运行已......

学位

可信工业控制网络可生存性可控性安全性连续马尔可夫模型复杂网络马尔可夫决策过程强化学习

基于强化学习的区块链自私挖矿策略

自从于2008年问世以来,比特币就作为首个实现完全去中心化的数字加密货币而受到极大的关注。在比特币网络中,所有用户的交易信息都......

学位

区块链工作量证明自私挖矿马尔可夫决策过程强化学习

基于航行策略学习的船舶航迹预测方法研究

随着海上船舶数量的增加和船舶航速的提高,加强船舶航行的安全和安保管理已成为全球各国的当务之急。在海上交通管理任务中,船舶航......

学位

船舶航迹预测卷积神经网络深度强化学习马尔可夫决策过程

软件定义无线传感器网络拓扑控制算法研究

软件定义无线传感器网络（Software-Defined Wireless Sensor Network,SDWSN）基于软件定义网络（Software-Defined Network,SDN）的解决方......

学位

拓扑控制功率控制能量效率中继选择动态路由马尔可夫决策过程软件定义无线传感器网络

基于深度学习的双机械手抓取检测研究

抓取检测作为机器人智能化的研究重点,目的是让机器人能够像人类一样的对外部环境做出判断,抓取各种各样的物体。但传统的抓取检测......

学位

双机械手抓取检测马尔可夫决策过程卷积神经网络深度图像

基于深度强化学习的多自动导引车运动规划

为解决移动机器人仓储系统中的多AGV无冲突运动规划问题，建立了马尔可夫决策过程（MDP）模型，提出了一种新的基于深度Q网络（DQN）的求解方法......

期刊

多自动导引车运动规划马尔可夫决策过程深度Q网络深度Q学习

基于算法经济的即时配送订单最优匹配研究

算法作为当今科技高速发展时代下重要的工具，已经深刻影响了经济市场，推动着社会整体资源结构配置的优化。即时配送是互联网下先进算......

学位

强化学习算法经济即时配送订单匹配问题马尔可夫决策模型资源配置遗传算法贪心算法内在机理马尔可夫决策过程计算速度

基于深度强化学习的电力系统自适应不确定性经济调度

在大规模可再生能源并网的趋势下，风电、光伏等间歇性电源出力的不确定性给电网调度运行带来了挑战。传统调度方法通常建立在对不确......

学位

强化学习电力系统自适应不确定性经济调度问题马尔可夫决策过程梯度算法调度方法求解模式建模状态转移规则约束

基于强化学习的会话型推荐算法研究

在实际场景中，用户的身份标识符通常是不可用的，例如用户在购买商品前以未登陆的状态来浏览电商平台，或者匿名地浏览网页从而保护个人......

学位

强化学习算法会话预测性能推荐系统外部奖励场景智能体 IRN 序列匿名用户马尔可夫决策过程购买意图

基于强化学习的推荐研究综述

推荐系统致力于从海量数据中为用户寻找并自动推荐有价值的信息和服务,可有效解决信息过载问题,成为大数据时代一种重要的信息技术......

期刊

推荐系统强化学习深度强化学习马尔可夫决策过程多臂老虎机

基于5G-R业务的高速铁路异构网络接入技术

铁路窄带移动通信系统(GSM-R)正在向铁路宽带移动通信系统(LTE-R)、基于5G的铁路移动通信系统(5G-R)演进。针对未来高铁通信中的实......

期刊

高速铁路 5G-R 异构网络马尔可夫决策过程人工智能

相控阵雷达长时跟踪波束调度与波形优化策略

针对相控阵雷达多目标跟踪波束调度和波形参数优化控制的问题,本文提出了一种基于马尔可夫决策过程(MDP)的相控阵雷达跟踪波束调度......

期刊

相控阵雷达波束调度波形参数优化马尔可夫决策过程无迹卡尔曼滤波(UKF) 长期回报率混合遗传粒子群优化

异构网络QoS保证的MDP垂直切换研究

下一代无线通信系统将逐步实现各种无线网络的相互融合，一个重要的研究问题就是如何处理不同网络之间垂直切换。当终端从一个网络改......

学位

下一代无线通信系统异构网络服务质量马尔可夫决策过程垂直切换算法

异构无线网络中基于马尔可夫决策过程的接纳控制算法研究

随着各种无线接入技术的出现,移动通信系统将发展为由不同无线接入技术共存的异构无线网络,以便为用户提供更多、更好的业务体验。......

学位

呼叫接纳控制垂直切换马尔可夫决策过程异构无线网络

基于Q学习的多成品率衰变设备维护策略研究

随着我国制造业的不断发展，生产设备的先进性和自动化程度逐渐成为企业竞争的一大优势，设备的可靠正常运行是企业利润来源和企业战略......

学位

预防维护设备质量状态生产线系统马尔可夫决策过程 Q学习

动态电源管理框架及策略的研究与实现

嵌入式系统的高速发展，使高性能和低功耗的矛盾日益突出，低功耗技术与系统级的电源管理正成为研究的热点。动态电源管理(DPM)是一种......

学位

动态电源管理动态电源管理策略框架策略框架策略优化策略优化马尔可夫决策过程马尔可夫决策过程

图规划框架下的决策概率规划的研究与实现

智能规划是人工智能研究领域近年来发展起来的一个热门分支，由于其广泛的实用性，受到研究者的高度重视。尤其是具有不完全信息和不确......

学位

人工智能智能规划概率规划动态编程马尔可夫决策过程

径向基函数网络和实例学习在强化学习中的应用

人工智能一个重要的目标是设计一个智能体使它能够在复杂环境中自主地完成给定的任务,机器学习是人工智能学科的重要组成部分。强......

学位

强化学习智能主体马尔可夫决策过程径向基函数网络值函数近似即时差分实例学习

模糊方法和Markov模型在四足机器人决策系统中的应用

决策是当前人工智能和机器人领域的关键问题，它的涵义十分广泛，从逻辑推理、专家系统到多主体协作、多主体对策、实时规划、机器学习......

学位

决策系统多智能体系统模糊评判马尔可夫决策过程卡尔曼滤波器机器人团队足球机器人

基于规划融合的多Agent系统协调机制研究

多Agent系统中,Agent之间的协调关系是影响多Agent智能的一个重要方面,协调的目的在于通过信息共享和通信交互,对任务目标、行为动......

学位

多Agent系统动态任务分配行为协调马尔可夫决策过程规划融合

面向不确定性的服务运行时决策优化方法

在服务执行过程中，由于服务系统内外部环境面临的各种不确定性事件，导致服务可能无法按计划执行，或者无法满足用户的价值期望。在软件......

学位

运行时服务不确定性事件决策优化马尔可夫决策过程仿真实验

看过本文同时还关注