论文部分内容阅读
制造业是现代工业的基石。随着信息技术等重要领域的革新与突破,制造业开始向智能化、绿色化转型。对生产过程进行合理调度可以提升企业竞争力。但企业在实际生产过程中,由于系统或人为的一些动态因素,如加工时间变化、机器故障等,使得原调度方案变成次优或不可行,造成产品质量下降,增加能源消耗。因此,对生产过程进行合理的动态调度,有利于提高企业智能化、绿色化水平,降低生产成本、提升产品质量、降低能源消耗。本文以钢铁企业高炉—转炉区间段为研究背景,分析运输特征及生产过程中的动态因素,分别提炼出动态并行机生产调度问题、运输与并行机生产协调调度问题。以最小化工件逗留时间和的期望为目标函数,分别建立生产调度的优化模型、运输与生产协调调度的优化模型。强化学习是机器学习的一种,相比于其他方法,不需要建立确定的问题模型,适用于解决动态调度问题。但调度问题状态空间过大,在使用强化学习算法求解时易陷入“维数灾难”。因此,本文基于Q-learning算法及函数逼近思想,设计求解算法,不仅可以解决大规模调度问题的数据内存问题,在求解精度上也有一定优势,具有稳定性。本文主要研究内容如下:(1)以转炉炼钢生产过程为研究背景,提炼出动态并行机生产调度问题。考虑生产环境中工件释放时间、加工时间及机器故障时间为随机变量,以最小化工件逗留时间和的期望为目标函数,建立混合整数规划模型。将生产调度问题转换为多阶段决策问题,根据加工时间等随机变量对生产环境产生的影响划分强化学习算法中的状态、动作,应用线性函数泛化器解决数据存储问题,结合Q-learning算法对问题进行求解。实验结果表明,基于线性函数泛化器的Q-learning算法具有较好的有效性及稳定性。(2)以高炉—转炉连续生产过程为研究背景,提炼出运输与并行机生产协调调度问题。在运输阶段,有多台运输车,其容量为1,限制运输时间;在生产阶段,工件释放时间、加工时间为随机变量,以最小化工件逗留时间和的期望为目标函数,建立运输与生产协调调度模型。将运输生产两阶段问题转换为多阶段决策问题,结合运输特征及生产中的动态因素,分别设定运输与生产阶段状态空间、动作空间,应用基于线性函数泛化器的Q-learning算法对问题进行求解。实验仿真结果验证了本文提出的Q-learning算法在解决运输与并行机生产协调调度问题的有效性。