基于情景记忆的量子深度强化学习

来源 :电子科技大学学报 | 被引量 : 0次 | 上传用户:pingerk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化.然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路.为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为量子情景记忆深度Q网络,该模型利用情景记忆来加速量子智能体的训练过程.具体来说,该模型将历史上出现的拥有高奖励值的经验记录到情景记忆中,使得在当前环境的状态与情景记忆中的某状态相似时,量子智能体可以根据该历史状态快速地获得想要的动作,从而减少了算法优化的迭代次数.在5个经典的雅达利游戏上的数值模拟表明,该文提出的方法可以显著地减少训练量子智能体的迭代次数,进而可以获得比其他量子深度强化学习方法更高的分数.
其他文献
利用光合效率高、生物吸附力强且可以大规模低成本开放培养的蛋白核小球藻吸附重金属Cd2+是一种极具前景的水处理手段.藻细胞密度低,藻液处理量特别大,采收成本高成为限制其应用的重要瓶颈之一.结果表明,在蛋白核小球藻溶液中加入0.021%壳聚糖且pH为7时,蛋白核小球藻达到最佳絮凝状态,在此条件下,蛋白核小球藻对重金属Cd2+的吸附率可以达到98.00%,吸附量为4.06 mg/g.实验证明,壳聚糖作为絮凝剂可实现低成本采收蛋白核小球藻且不影响其对重金属Cd2+的吸附效果.
为保障农民宅基地和集体建设用地的使用权及房屋所有权,国内许多城市已开展农村房地一体权籍调查确权登记发证工作.但是当前农村宅基地管理工作不规范,权籍调查成果质量较差,成为制约房地一体确权登记工作的瓶颈.本文基于GIS、倾斜摄影、移动互联等先进技术,在深入了解实际需求的基础上,提出了搭建农村房地一体权籍管理平台的解决方案,并阐述了平台实现的关键技术,实现了农村宅基地和集体建设用地数据录入、编辑、展示、查询和统计等功能,为农村房地一体信息化管理提供支持.
实验室煤体复电阻率测试旨在提供可靠的复电阻率数据,为进一步现场应用基础研究.影响煤体复电阻率测量精度的因素众多,其中电极板为最重要的因素之一,极板的厚度和大小都会对煤体复电阻率测量产生影响,因此电极板的变化对测量参数的准确性有重要意义.通过选用导电性较好的紫铜材料作为极板,对3种不同厚度的极板材料进行了复电阻率测量,分析极板厚度对激发极化效应的影响,测试了直径为1,2,3,4,5cm 5种大小极板对煤体复电阻测量的影响,并使用Cole-Cole模型进行数据拟合.得出结论如下:1)极板本身的极化效应和极板与
针对高阶段充填体稳定性风险评估过程中存在模糊性与随机性的特点,引入云模型理论,建立了高阶段充填体稳定性评判模型.以安庆铜矿等国内4座深井矿山为研究对象,选取坍落度、侧向暴露面积、充填料浆坡度、充填接顶效果等16项影响因素作为风险评估指标,借助云理论计算隶属于不同风险等级的各指标云模型参数,同时基于改进CRITIC-G1法,综合考虑指标之间的相关性与专家的理性判断,将主客观权重进行优化组合,最终根据评估指标的云数字特征和组合权重确定4座矿山充填体稳定性等级.研究结果表明,安庆铜矿、李楼铁矿、冬瓜山铜矿、司家
轻合金及超高强度钢功能强rn轻合金与合金是有区别的.航天器对轻合金的要求可是很高的!常见的航天材料轻合金包括铝合金、钛合金、镁合金等,这几种轻合金都有一些共同的本领:结构均匀、耐腐蚀性与耐热性好、塑形性强、有利于压力性加工等.这些特点对于航天器能够适应真空环境作用重大!
期刊
实验器材rn红色激光笔、纸卡片、笔、刻度尺、卷尺、美工刀、白板(图1).rn实验原理rn通过查找资料,我明白两列波同时传播时会在空间某点叠加起来.如果在这一点两列波总是波峰与波峰相遇、波谷与波谷相遇,那么在该点波的强度会增大(图2).相反,如果在这一点两列波总是波峰和波谷相遇,那么在该点,两列波相互抵消,波的强度为零(图3).这就是波的干涉现象.比如我们常见的水波,两个水波相遇后,在重叠的地方就会形成干涉的波纹.
期刊
提出了一种数字全息与DCT域比特嵌入相结合的数字水印方法,实现了在不需要原始宿主图像参与的情况下,通过部分载体图像即可完整重建原始水印信号.对数字全息水印数据进行Arnold置乱处理,可以提升其抗剪切性.仿真实验结果表明,基于DCT域比特嵌入的数字全息水印方法在透明性、鲁棒性和抗剪切性等方面表现良好.
气井发生油套环空带压的现象比较普遍,已成为影响国内海上平台生产的重要因素之一.首先,对井下泄漏气体的运移途径进行了分析,然后,将泄漏点视为喷嘴,考虑气体在倾斜封闭环空与静止液柱内的运移以及气体在井口处的累积过程,最后,建立了井下泄漏量的计算方法.应用该方法可得到井下泄漏点尺寸,井下泄漏量计算准确度依赖于油套环空液面的测量精度以及环空泄压/压力恢复数据的采集密度和精度.
为了提高基于车载点云数据的路灯提取召回率与准确度,本文提出了 一种新的路灯提取方法.首先,构建三维格网索引,通过分析杆状物点云二、三维形态进行杆目标提取;其次,利用行道树与路灯在上部点云的形态差异将杆目标中的行道树剔除;最后,使用构建的路灯模板库对候选路灯进行匹配,剔除候选路灯中包含的交通牌、信号灯等,精确提取路灯.试验结果表明,新的路灯提取方法可以自适应提取道路点云数据中的路灯,提取结果的召回率与准确率分别达到了 89.17%和93.90%,无需其他辅助数据,使用该方法可以准确提取路灯.
零中频架构近年来得到广泛应用,但是该架构中的同相/正交(I/Q)失衡问题严重影响接收信号的质量.通过后端补偿算法消除I/Q失衡是最为有效的手段之一,然而现有文献对宽带系统I/Q失衡中时间失配(TM)误差的研究不够全面.该文建立了一种包含TM误差的宽带I/Q失衡增广误差模型,首先基于数据辅助型方法对失衡误差进行估计,采用多项式拟合的方法将相位失衡误差进行分解,基于分解后的失衡误差设计了一种基于非线性相位的实数有限脉冲响应(FIR)滤波器的补偿结构对各项失衡误差进行补偿.根据最小二乘(LS)的思想选择最优的延