基于强化学习的组合优化综述

来源 :软件导刊 | 被引量 : 0次 | 上传用户:ZFsky260583
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合优化(CO)是运筹学的关键部分之一,近年来引起了学术界的极大兴趣。常见的解决此类问题的方法多数涉及到人工设计的启发式方法。因此,如何利用强化学习(RL)的决策过程生成CO问题的可行解,以及RL能否代替传统方法也是当前研究的重点。主要介绍CO与RL的基本定义、CO与RL框架之间协同作用的分类,最后探讨将CO与RL相结合的研究前景。
其他文献
应力强度因子是疲劳裂纹扩展的表征参量。为了探究材料断裂失效时微孔洞对于材料内部裂纹扩展的影响,基于有限元软件ABAQUS对6061铝合金材料构建力学性能模型。分别从孔洞到裂纹尖端的距离、角度和孔洞的大小3个方面研究应力强度因子的影响变化,并通过MATLAB进行不同参数的合并拟合确认其数学关系式,从理论上验证软件仿真拟合的合理性。仿真结果表明,孔洞往往会降低裂纹尖端的应力强度因子,且随着孔洞裂纹相对位置增加,其影响会呈幂函数分布减小,并且这一影响在45°左右时最为明显。研究表明,孔洞影响裂纹尖端的应力强度因
为提高旋转机械故障诊断中故障分类的准确率,以及针对故障数据特征不充足而带来的泛化能力较差问题,提出一种多特征融合卷积神经网络(CNN)的旋转机械故障诊断方法。首先利用连续小波变换将一维原始信号转换成二维小波时频图,构建多特征融合CNN网络模型。其中,原始振动信号为1DCNN模型输入,小波时频图为2DCNN模型输入;然后根据上面两个维度的输入进行网络模型训练;最后将测试集中的数据输入到已经训练好的网络模型,对不同旋转机械故障进行分类。在凯斯西储大学的轴承数据集、机械故障预防技术(MFPT)的轴承数据集上进行
为对平衡功能障碍患者进行评估和康复训练,设计开发了一套平衡功能障碍智能训练系统。阐述了系统总体设计框架、硬件关键模块设计、平衡功能评估模块设计、患者档案设计、三维游戏设计以及智能算法实现。该系统具备丰富的三维游戏场景,能够对患者进行平衡功能训练,自动调整游戏参数,显示患者训练结果。设立对照组和实验组进行实验,结果表明,使用平衡功能训练仪的患者Berg平衡量表平均分数高于不使用该系统进行训练的患者,说明平衡功能障碍智能康复训练系统可以提高患者的平衡功能。
为帮助快销服饰企业制定合理的生产销售计划,提出结合ARIMA与RF模型的销售预测模型。通过对原始数据集进行数据预处理、特征筛选和特征降维处理,得到高质量的训练集,进而通过对参数的不断调优获得较好的实验模型,最后针对ARIMA模型无法更好地提炼非线性信息的问题,利用随机森林算法对非线性数据特征的学习能力,优化ARIMA模型预测残差,构建实验效果更好、预测精度更高的实验模型。实验结果表明,ARIMA-RF组合模型对此快销品牌销量预测结果的评价指标优于单个模型预测结果,相较于ARIMA模型,均方根误差和平均绝对
为改善非平稳金融市场环境下在线投资组合策略无法实时动态调整的缺点,提出一种OGDMAR策略。基于在线梯度下降(OGD)算法,对在线移动平均反转策略的预测模型进行改进,使预测模型的系数在每次迭代时都可重新调整。在4个经典数据集上进行数值实验,结果表明,与原策略的累积收益相比,改进策略在4个数据集上分别提升了111%、134%、32%和48%,并且在不同的交易成本条件下累积的收益更高。OGDMAR策略具有应对非平稳环境的能力,不仅在累积收益方面有显著提升,而且具有更强的交易成本承受能力。
由于工作压力大和饮食不健康等原因,心脏病发病年龄不断提前。同时,各地区存在医疗资源不充分、发展不平衡问题。因此,通过患者身体状况快速预测和诊断心脏病具有重要现实意义。提出一个KPCA-LightGBM模型,通过KPCA算法对数据集进行降维,使用LightGBM算法对降维后的数据集进行训练,然后使用训练好的模型预测心脏病。实验表明,KPCA-LighGBM模型预测准确率可达90.1%,较传统方法提升4.6%。KPCALighGBM模型可以有效帮助医生对心脏病进行辅助诊断,提高医疗资源利用率。
针对多工序产品过程质量数据多特征、多噪声特性,提出一种基于收缩自编码器—深度神经网络的多工序产品质量预测方法。为了减少质量预测模型对噪声数据的敏感性,首先基于收缩自编码器的特征提取模型,完成预训练;然后将预训练网络的权重和偏置参数传递至多尺度卷积神经网络,作为预测模型的初始化参数,并增加批量归一化层、Dropout和L2正则化,优化神经网络结构,减少过拟合。以天池智能制造质量预测数据为例进行实验验证,结果表明该混合模型算法相较于AE-DNN、DNN、PCA-BP和PCA-SVR,MSE值分别降低了27.6
为提升BP神经网络对PM2.5浓度预测的准确度,提出一种基于遗传算法的多因子PM2.5浓度预测模型。利用遗传算法的全局搜索特性,得到最优的BP神经网络的初始权值和阈值,针对网络结构设置3个隐含层,提高特征学习能力,更大程度拟合非线性函数,并将模型用于预测。实验结果表明,该方法对于PM2.5浓度的预测精度达到98.5%,比传统方法提高3.6%,具有较高应用价值。
A/B检验主要用于考察相对于原方案A,改进方案B是否更优。重点研究新旧版本网页点击率的贝叶斯A/B检验问题,通过建立起二项分布下的二元Logistic回归模型,结合拉普拉斯近似及重要性抽样技术,成功计算出边际似然并最终得到贝叶斯因子。而贝叶斯因子是贝叶斯A/B检验的核心,经典的A/B检验仅考虑A、B方案是否相等,基于此进一步考虑两者谁更优的问题。研究结果表明,对网页的改版并不能有效地增加用户点击率。
大数据在高效驱动教育管理与教学改革的同时也带来了数据管理及有效应用问题。区块链技术作为一种新兴的去中心化底层数据治理技术,为教育数据的管理及应用提供了新的思路与方法。从区块链技术在教育数据治理应用中的理念逻辑、技术逻辑和应用逻辑出发,借鉴巴西区块链技术在高等教育学位和学分治理中的经验,探讨了区块链技术在教育行政治理、高考综合素质评价治理、学术研究治理和在线教育治理中的应用路径。