基于强化学习的工业过程建模及故障分类

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cxy153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工业过程系统的更新换代、监测技术的不断提高,工业现场采集的数据规模日益庞大且数据类型呈多样化,从而导致数据特性与过程特性越来越复杂。同时科学技术的不断创新,基于人工智能技术的大数据处理、分析与建模能力为基于数据驱动的工业过程建模研究提供了新的思路与方向。本文围绕工业过程建模与故障分类实际任务需求,重点针对数据特性中的半监督和不平衡、过程特性中的非线性和动态性等关键性难点问题,提出了基于强化学习的工业过程建模方法,并利用实际过程数据完成了方法验证。本文主要研究内容分为如下:(1)针对工业过程中半监督数据的标签生成问题,提出了一种基于深度强化学习的通用可训练伪标签生成器。通过验证数据集的分类性能来判别所生成伪标签的正确性,策略梯度损失函数来优化伪标签生成器,构建了伪标签生成器和验证数据集之间交互迭代的序列决策过程,并使用深度强化学习解决了生成离散标签的不可微问题,提高了伪标签的质量并纠正了证实偏差,形成有别于独立非迭代模型的一种全新模型架构,提升了普通模型在半监督数据下的分类性能。(2)针对工业过程中不平衡数据的代价敏感问题,提出了一种基于Actor-Critic模型的动态代价敏感分类器。通过设计适当的奖励函数,使用具有策略梯度损失的Actor网络,引入新的代价矩阵到Critic网络中,构建出了用新型Actor-Critic模型来学习不同样本分类代价的框架,利用交替迭代的方式使得Actor-Critic模型学习样本权重的过程与样本实际分类性能有关,从而让Actor-Critic模型具有学习最佳代价矩阵的能力,解决了不平衡故障分类问题中代价敏感方法依赖专家经验、设置代价矩阵困难的问题。在此基础上,针对高维变量数据和非线性过程等问题,使用神经网络作为强化学习的网络模型进行降维并提取非线性特征。提出的新颖代价敏感学习策略可以自适应地学习代价矩阵并在模型学习的过程中动态生成样本权重,达到提高不平衡分类性能的目的。(3)针对工业过程中极度不平衡数据的代价敏感、类别数量多、异质类和同质类之间的差别问题,提出一种强化知识蒸馏算法。通过将教师网络所学知识作为软目标迁移到学生网络,利用细粒度分类框架细化复杂任务为多个子任务,构建出基于层次聚类和知识蒸馏模型的细粒度分类框架,具有兼顾所有类别的信息,又细化分类任务的作用,解决了极度不平衡问题中类别数量多、异质类和同质类之间的差别问题,获得了较好的分类性能。在此基础上,通过强化学习来学习样本权重,构建出基于知识蒸馏策略和策略梯度强化学习的改进细粒度分类模型的框架,不仅解决了多类别不平衡分类问题中异质类和同质类之间的差别问题,而且解决了同质类中样本重要性不同以及样本分散的问题,使得同质类内中难以区分的样本得到改善,也达到了类内距离变小、类间距离变大的效果,在不平衡分类问题上具有突出的分类性能。(4)针对工业过程中不平衡数据的样本选择问题,提出了一种基于深度强化学习的新型通用不平衡样本选择框架。通过把选择样本子集作为动作、训练集的特征信息和标签信息作为状态、验证数据集上的分类性能作为奖励、最大化样本选择的奖励作为目标,将去除异常值和选择有效样本的问题转化为多臂老虎机问题,构建了在训练集中进行样本选择的单状态马尔可夫决策过程,解决了样本采样问题中的性能不稳定、设计样本权重难、方法普适性低等问题,最后采用REINFORCE损失函数来优化样本选择过程。作为一种数据层面的方法,该方法具有一定的有效性、稳定性和可转移性。(5)针对工业过程中包含随机噪声的极度不平衡数据的样本选择问题,提出了一种基于Soft Actor-Critic模型的集成不平衡样本选择器。通过引入集成思想,将boost的序列提升过程巧妙地与强化学习中的轨迹相结合,将采样器的学习过程建模成序列决策过程,提出误差密度进行困难样本挖掘,利用交互迭代的方式进行模型训练,降低了模型误差和偏差,提高了模型的稳定性,获得了良好的分类性能,并提高了模型的泛化能力;并且改进了网络输出动作的方式,不仅减少了模型参数的计算量,也使得方法具有一定的有效性和实用性。
其他文献
天然气作为较为清洁的化石能源,对缓解雾霾等环境问题,实现清洁供暖意义重大。而天然气燃烧的主要问题是氮氧化物的排放。烟气再循环及纯氧燃烧技术有望成为实现“零氮”排放、降低碳捕捉成本的新技术路线。与常规空气气氛下的燃烧相比,高浓度CO2对燃烧火焰结构、火焰稳定性、火焰熄火极限及化学反应动力学机理等均有显著影响,学者也进行了广泛的研究。但是,如何将CO2对天然气火焰的协同效应解耦并确定CO2各特性(化学
学位
智能车又被称为无人车或自动驾驶车辆,是计算机、通信、自动化等多学科交叉的重要科研领域,相关技术已极大促进了全世界汽车行业的革命性发展。相比于传统汽车,智能车可以有效提升道路通行效率、降低交通事故率、减少能源消耗,并帮助人们节约宝贵的时间。在智能车的环境感知技术中,基于视觉的方法占据主流位置,这是因为相机相比于其他常见的车载传感器拥有更加低廉的价格以及成熟的底层算法支持,且可以提供丰富的色彩、纹理等
学位
控制系统是保障流程工业生产过程安全稳定运行的重要手段。随着系统运行,控制回路的性能往往会发生退化。回路振荡是控制性能下降的典型表现形式。现有过程振荡检测与诊断的研究工作主要有以下三个局限性:(i)大多数的振荡检测方法要求振荡信号满足平稳和时不变等条件,但是工业现场的数据具有非平稳、非线性、时变特性;(ii)现有的振荡诊断工作大多局限于诊断由非线性故障(例如阀门粘滞)引起的非线性振荡,线性振荡的诊断
学位
由感知、计算、通信、执行等部件所组成的工业控制系统(Industrial Control System,ICS),广泛应用于石油化工、离散制造、电力系统等多种国家关键基础设施中,大大提高了生产效率。然而随着ICS与信息网络的不断融合,以及国际网络空间安全形势的不断恶化,ICS安全已成为国际间政治较量、军事行动、勒索经济等的新战场,受到世界各国政府、工业企业等的广泛关注。可编程逻辑控制器(Progr
学位
随着近年来空间遥感技术的快速发展,地表自然环境状况可由多源环境遥感卫星进行采集,并生成覆盖全球不同地区的大范围环境遥感影像数据。如何对这类多源海量异构的大范围环境遥感数据中的自然河流、森林等进行高效分割提取,进而实现对大范围乃至全球范围内的地表自然对象监测,是目前环境遥感数据分析领域极具挑战且亟待解决的关键问题,其对于实现地表自然环境的动态监测与开发具有重要的指导意义。针对于此,国内外研究者尝试通
学位
神经递质是神经系统中重要的化学信号分子,对大脑认知、生理活动和精神状况等具有调节作用,实现神经递质浓度的在线实时监测对于情绪改善、大脑机理研究和精神疾病的治疗等十分重要。由于神经递质的分泌具有微量、受刺激时浓度变化快和变化范围大等特点,对神经递质的在线检测方法提出了较高要求。目前常见的神经递质在线检测方法包括微透析法和无损成像技术等,这些方法具有灵敏度高和检测精度良好等优势,但存在时间分辨率较低、
学位
过程监测技术在维护生产安全、保证产品质量上起到了关键作用,是现代工业过程中的重要组成部分。故障诊断是过程监测中的重要环节,用于提取过程中的故障信息,从而帮助工程师进行故障定位和故障恢复。随着工业生产规模日趋扩大,工业过程也日益复杂,传统线性方法难以处理实际过程中的诊断任务,因此,针对非线性过程的故障诊断方法的研究成为了过程监测领域重要的研究课题。近年来,以深度学习为代表的数据挖掘智能呈井喷式发展,
学位
模型预测控制(Model Predictive Control,MPC)以其良好的控制性能,有效地处理过程约束的能力,经济效益可观等优点,在复杂的工业过程控制中取得了巨大的成功,其相关研究也受到越来越多的关注。模型预测控制算法通常包括三个关键环节:预测模型、滚动优化、反馈校正。预测模型的辨识是工业预测控制系统设计中耗时最长且成本最高的环节,直接影响模型预测控制算法的实施效率和经济性。一方面,研究有
学位
定位作为无人自主系统智能化运行的关键技术,提供了实时的位置反馈,是实现后续目标规划和导航规划的必备基础和先决条件。与基于激光雷达的定位方法相比,视觉定位近年来受到广泛关注,因为相机成本低、轻量化、易集成,可实现大规模应用。为满足无人自主系统在复杂应用场景下的长期运行需求,需要研究动态开放环境下的长期鲁棒视觉定位技术,主要面临由天气、季节变化以及动态遮挡导致的外观变化、由机器人运动引起的视角变化等挑
学位
工业控制系统(Industrial Control System,ICS)广泛应用于汽车、电子、食品、石油、化工、电网等工业领域。近年来随着工业4.0、智能制造2025等的提出,ICS逐渐连入工业互联网,导致其面临的网络安全威胁与日俱增,相关攻击事件频繁发生,造成大量的经济损失。工业机械臂是ICS中的重要设备,可直接与物理世界交互,一旦运行异常,将导致人员伤亡、设备损坏、生产效率下降等严重后果。例
学位