基于深度强化学习的资源分配问题研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:pmlypmly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源分配,即如何调整资源和目标之间的分配关系来达到最大的分配效果。资源分配问题广泛存在于民用场景和军用场景,例如火力资源分配、电力资源分配和应急物资分配等都是资源分配问题的典型应用。强化学习是一类机器学习方法,是推动从弱人工智能走向强人工智能的关键技术之一。强化学习的关键在于策略,智能体通过与环境互动来学习策略。智能体首先获取环境中的状态,并在当前状态根据策略选择动作,从而使环境状态发生变化。在状态更新后,环境将新的状态和奖励返回给智能体;智能体进一步根据奖励来更新策略。深度强化学习是在强化学习的基础上使用深度神经网络,在智能决策的基础上进一步提高了模型的感知能力。本文首先基于深度强化学习算法对资源分配问题进行研究。在资源分配问题中,本文根据环境状态建模的复杂程度,设计了2个马尔可夫决策模型,设计和实现了多个深度强化学习算法,并进行实验验证,以此研究建模合理性和深度强化学习算法在资源分配问题上的可行性,最终训练出决策能力好的深度强化学习算法模型。在使用深度强化学习算法对资源分配问题进行研究的基础上,本文进一步将专家经验与深度强化学习算法相结合,通过实验来探究引入专家数据对资源分配算法性能的影响,最后,对本文中使用的方法的表现和效果进行综合评估对比,分析各方法的表现。本文对提出的资源分配问题解决方案进行了仿真验证,并做了大量对比实验。实验结果表明,本文提出的算法可以有效处理资源分配问题,并为下一步的研究提供了基础。
其他文献
近年来,随着网络购物普及程度越来越高,顾客对电商企业的服务能力提出了更高的要求。然而,当前公共突发事件的相关信息在网络上传播的速度较快,致使短期内商品非计划性需求激增的情况日渐频发。由于突发事件所造成的非计划性需求激增具有较强的不确定性,商品供应能力无法及时跟上,一味从供应端紧急调配资源无疑增加了供应链运作负担。同时顾客消费心理和行为特点也会发生改变,商品的可得性成为影响购买决策的主要因素,给电商
随着人工智能和5G技术的全面推广,自动驾驶技术呈现出快速发展的趋势。为了应对复杂多变的环境,就要求自动驾驶汽车有更完善的环境感知能力。目前自动驾驶环境感知主要以相机、激光雷达为作为核心的传感器。然而,各个传感器都有各自的局限性。单目相机无法进行测距。而激光雷达则缺少物体颜色信息,难以识别车道线以及交通标识等信息。融合图像与点云能精准获取带有深度的环境信息。因此,为了实现满足自动驾驶要求的环境感知,
空间形态设计是学生从二维空间进入三维空间设计类专业学习的入门课程,是建筑设计专业基础课程。室内设计是建筑的延续和再设计,将建筑设计空间形态设计课程的一些方法迁移并运用在室内设计中,可以帮助学生进行空间形态设计。文章首先介绍了室内空间形态设计的基本概念和教学内容,最后提出室内空间形态设计的教学方法,以期提醒学生不断关注和审视身边的空间,增强学生的空间表现能力与空间创造的思维能力。
生鲜产品高频、刚需,生鲜电商市场潜力巨大且疫情加速培养消费者线上消费习惯,生鲜电商渗透率加速提升,各大资本和企业纷纷加入布局和扩张战略,市场竞争加剧,企业只有不断提高服务质量、提升客户满意度并精准地把控各项成本,才能在最终的市场上占有一席之地。D生鲜电商从上海起家,前置仓运营效果良好,逐步向一二线城市扩张,依据企业的选址战略,目前已布局到南京市场,且该市场上已存在两家主要的竞争对手,本文针对D公司
多数发展中国家的电子政务服务尚处于起步阶段,电子政务服务的有效性取决于政府和用户的意向。2016年以来,蒙古国一直在逐步实施电子政务服务。作为这项工作的一部分,政府交易电子支付系统由蒙古中央银行负责,并连接21家国有银行和商业银行作为系统参与方以保持合作。该系统旨在为320万蒙古公民实现可靠、高效、低成本和快速的政府交易,并且没有时间或空间的限制。自从引入该系统以来,人们就一直在关注系统的操作运行
近年来,计算机视觉技术蓬勃发展。目标检测作为其中的代表性研究方向,在交通、医疗和军事等领域发挥了重要作用。随着计算机硬件能力的提升和目标检测算法不断的推陈出新,检测的精度和效率也不断得到了提高。在目标检测中,比较常用的数据集是MS-COCO和PASCAL VOC等,大多数检测算法基于这些数据集而提出,这些数据集的共同特点是图像分辨率相对较低,平均每张图像的分辨率在500×500像素左右。然而,硬件
高镍层状正极材料因具有较高的比容量和较低的成本等优点,成为备受关注的锂离子电池正极材料之一,尤其低钴或无钴高镍正极材料成为新的研究方向。本文以高温固相法制备了Li Ni0.95Mn0.05O2(NM95)材料,从优化工艺、掺杂改性、包覆改性三个方面进行研究,主要内容如下:(1)采用高温固相法,以Ni0.95Mn0.05(OH)2和Li2CO3为原料制备了NM95正极材料。在锂配比量Li/(Ni+M
随着我国办公信息化的发展,各大企业的经营模式也随着社会与科技的发展逐步改变。在2012年,营改增逐渐在全国进行推展,将企业的营业税改成增值税,这样的政策为各个中小企业减少了重复征税,降低了企业的税务负担。所以对于一个企业来说增值税管理的规范化是十分重要的。在大数据盛行的背景下,将大数据技术融入到纳税管理系统是一个必然的趋势。大数据背景下的纳税申报系统除了对进项销项和增值税三者的管理之外,还需要实现
高速列车采用铝合金车体以实现其轻量化,车体材料采用A7N01铝合金。搅拌摩擦焊是车体直长焊缝焊接的有效方法。搅拌摩擦焊接头腐蚀是应用中需要解决的问题。本文以A7N01搅拌摩擦焊接头为研究对象,提出了采用扫描式微弧氧化技术进行接头表面改性以提高接头耐腐蚀性能的技术手段,通过试验与仿真技术相结合的方法,从扫描式微弧氧化喷射系统设计、微弧氧化处理工艺和陶瓷层性能测试三个方面开展了研究。本文主要研究内容及
移动通信技术经过了长时间的进步,从1G的模拟通信时代发展到5G全数字、全连接时代。5G网络的“高速率、大容量、低延时高可靠”的特点给当今人们的生活带来了显著的影响,同时也极大加快了我国教育产业的进步。5G技术将会引发教育生态的一场重大变革,推动我国教学向个性化、精准化、智能化、泛在化发展。5G网络的环境下,VR/AR、云计算、边缘计算、物联网等技术将在教学中得到更广泛而深入的应用。本文针对三个不同