论文部分内容阅读
流程工业的数据挖掘和知识发现是一个非常复杂但很有研究价值的领域。流程工业的内部环节每天都在产生并储存着大量的运行数据,这些数据中蕴含着较多的知识等待人们去挖掘。流程工业工艺流程的各个环节组成的序列是一个时间序列,随着时间的推移,内部环节依次运行。在目前的相关研究中,根据设备运行数据获取内部环节的工艺顺序是一个比较新颖也比较困难的问题;从流程工业数据中提取关联规则已经不是一个新的话题,但是目前的研究方法提取的关联规则仅是布尔型规则,而无法挖掘出流程工业中多环节间的关联关系;同时内部环节的状态之间的如何影响,某个环节的变化对其他环节会产生怎样的响应也是一个重要的问题,这些问题的研究和解决将会给流程工业带来较大的意义。在此背景下,基于流程对象本文提出了一个知识发现模型——Time series-Clustering-Association-Chain/Tree Flow(简称为T-C-A-C/T Flow)。这是一个算法流,目的在于提取流程对象中具有强关联关系的关联链,最终根据关联链获得其状态关联链。首先对流程对象数据进行预处理,包括T阶段和C阶段,其过程较为复杂,为减少运算时间,采用基于差分的数据取样方法来选择具有代表性的样本数据作为该阶段研究对象。为发现流程对象时序特征,提出一种基于极值的时序发现算法,通过对每个环节的极值进行计算,得到其他环节对基环节的时间距,根据时间距确定该流程对象的工艺顺序。根据该顺序对原始数据和差分数据进行调整就可以得到符合工艺顺序的数据。为了使不同状态类别的数据得到区分和聚合,本文在提取关联链之前先对时序调整后的数据进行最佳k类的k-means聚类,该过程也同时降低了计算复杂度。最佳k值采用基于凝聚度和分离度的轮廓系数评价函数来确定,通过对聚类结果进行评价,根据评价系数选择最佳k值。对聚类集,采用基于Apriori的维间关联规则算法提取不同环节的聚类间的二项关联规则,再根据该规则的支持度和兴趣度确定环节间二项关联规则及其关联度。基于关联度,由所有的环节间关联规则生成关联链(最强关联链和关联树),那么该关联链就是流程工业内部环节间的强关联关系。根据每一条关联链进行其状态的统计,即可确定状态关联链。状态关联链表示关联链上所有环节间不同状态的作用关系。最后,用某发电系统部分检测数据对该模型进行实验。实验结果表明,本模型能较好地挖掘出流程对象内部环节间的强关联关系,并能较好地表达出隐藏在流程对象中的状态影响关系。充分地利用状态关联链的状态信息对流程工业进行相关的辅助指导,对流程工业的生产、控制和管理都具有较大的意义。