基于因子分解机用于安全探索的Q表初始化方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:zlh888617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习大多数探索/利用策略在探索过程中忽略智能体随机选择动作带来风险的问题,提出一种基于因子分解机(FM)用于安全探索的Q表初始化方法。首先引入Q表中已探索Q值作为先验知识,然后利用FM建立先验知识中状态和行动间潜在的交互作用模型,最后基于该模型预测Q表中未知Q值,进一步引导智能体探索。在OpenAI Gym的强化学习环境Cliffwalk中进行A/B测试,基于本文方法的Boltzmann和置信区间上界(UCB)探索/利用策略的不良探索幕数分别下降了68.12%和89.98%。实验结果表明,本
其他文献
针对目前DSM提取和TDOM生产工艺繁琐、效率低下、精度较差的问题,采用以高分辨率无人机影像为实验对象,采用PhotoScan、Bingo、PCI三款软件联动处理的方式,提出了一种数字表面模型(Digital Surface Model, DSM)提取及真正射影像(True Digital Orthophoto Map, TDOM)生产的新框架。通过PhotoScan快速匹配连接点,结合Bingo
期刊
无人机技术和计算机视觉技术相结合,在民用和军用领域都有着广泛的需求,然而当前算法不能很好的适应无人机视角旋转、障碍物遮挡、目标尺度变化等特殊情况。根据实际的难点和挑战,提出了基于深度学习的无人机载平台多目标检测和跟踪算法。主要工作有:在检测方面,通过公开数据集和实际采集的大量数据,训练了基于Darknet53的检测网络作为检测器;在跟踪方面,使用Car-Reid数据集训练了一个残差网络提取目标外观
期刊
针对大量数据标记工作的繁重性和单一影像中心磁共振数据的有限性问题,提出了一种利用多影像中心有标签与无标签磁共振数据的半监督学习方法(MRSSL),将其应用在膝盖异常分类任务中。首先运用了数据扩增方法来提供模型所需归纳偏置,接着融合了分类损失项和一致性损失项来约束人工神经网络从数据中提取出具有辨别力的特征,然后将这些特征用于磁共振膝盖异常分类。此外,也提出了对应的监督学习方法(MRSL),在给出同样
期刊
秩函数法作为循环程序终止性分析的主流方法已经得到了深入的研究,但是现有的秩函数方法大多局限于线性或多项式秩函数的求解。针对循环程序若不存在对应的线性或多项式秩函数,现有的秩函数方法就无法证明终止性的问题,提出了一个新的方法合成给定循环程序对应的界函数。对于给定循环程序,倘若能找到其界函数,则表明该循环程序是可终止的。首先将界函数的求解问题转化为一个线性二分类问题,并选定界函数模板,根据模板建立映射
期刊
针对阿尔兹海默症患者(AD)和正常人之间核磁共振(MRI)图像差别小,分类难度大的问题,提出了基于改进VGG的弱监督细粒度阿尔兹海默症分类方法。该方法以弱监督数据增强网络(WSDAN)为基本模型,主要由弱监督注意力学习模块,数据增强模块及双线性注意力池化模块等构成。首先通过弱监督注意学习模块生成特征图和注意力图,并且利用注意力图引导数据增强,将原图和增强后的数据同时作为输入数据进行训练;然后,通过
期刊
针对结构光三维重建中的传统三频三步相移方法需要投影过多编码图像,效率低的问题,提出了改进的三频三步相移结构光三维重建方法。该方法与传统三频三步方法均需要三种频率的正弦条纹图,但条纹图数量只需5张,即最高频率的条纹图3张,但初始相位不同,剩余频率的条纹图各1张。较传统方法的9张条纹图投影效率提高44.44%。随后推导了该方法的求解原理,由最高频的3张条纹图直接求得重建所需包裹相位,另外两张条纹图用于
期刊
智能化无人开采是实现煤矿安全高效开采的技术途径。本文根据无人控制系统发展的一般规律,分析了综采工作面控制系统发展历程包括远程遥控、自动控制和自主控制三个阶段。综采工作面自主控制需要解决综采工作面环境实时感知、综采三机协同控制、高精度煤层地理信息系统、开采工艺智能决策与无人综采工作面评估实验方法五个方面的问题。总结了综采工作面控制系统的3个目标任务:可靠割煤与装煤、保持工作面几何关系、围岩可靠支护;
期刊
随着中国深空测控技术的进步和深空探测计划的推进,木星探测计划已经进入日程,而木星探测器的精密定轨和木星的引力场的解算是木星探测中的重要研究内容。该文章针对木星探测中的精密定轨和木星引力场解算等问题进行研究。首先,给出了木星探测器的坐标系统和动力学模型,并利用已公布的朱诺号(Juno)精密星历数据进行验证,动力学拟合结果与参考星历的位置偏差在10 m量级,速度偏差小于6 mm/s;然后,给出了深空多
期刊
近年来,人工神经网络在各领域得到了广泛的应用,展现出强大的计算智能.与此同时,量子计算硬件也得到了飞速发展,近期量子处理器已具备较稳定的计算能力和抑制退相干能力,多家商用云量子计算机公司已能够为世界各地的学者们提供在线量子计算实验平台.在诸多技术领域的迅猛进展下,量子神经网络这一交叉领域也重获科学界的关注,涌现出了大量新的研究思路并取得了重要的实验进展.本文首先对早期量子神经网络的研究思路作简要阐
期刊
针对目前掘进机定位定向不准确、自动化程度低等问题,本文提出了一种基于光纤惯导与数字全站仪组合的掘进机自主定位定向方法。通过分析光纤惯导与数字全站仪的组合定位定向原理,建立了光纤惯导和数字全站仪的误差模型和组合定位定向系统的状态方程和量测方程,运用卡尔曼滤波器对组合定位定向系统的状态量与量测量进行预测估计,并考虑数字全站仪的定位精度对融合效果的影响,得到掘进机自主定位定向的融合信息。搭建了掘进机定位
期刊