论文部分内容阅读
关联规则挖掘是数据挖掘较早研究的一个重要分支,分层搜索算法则是关联规则挖掘研究的热点内容。目前数据库技术已经渗透到许多工业复杂过程监控系统中,在这些系统的现场实时数据库中积累了大量的系统运行数据,其中蕴含了许多与工业过程控制、参数优化和现场管理相关的信息,这些都为数据挖掘技术在复杂工业过程集成智能控制及其综合优化中的应用提供了广阔空间。 在上述背景下,结合教育部重点科研项目“复杂工业过程中信息融合与知识发现理论与应用研究”,本论文的研究集中在三个方面:首先是对发现频繁数据项集的几种基本分层搜索算法的分析和理论探讨,其次是针对动态、连续量数据的增量挖掘算法和定量属性离散化的研究,最后给出一个采用关联规则挖掘技术的复杂工业过程专家控制器设计和现场运行结果。 在分层搜索算法的研究方面,本文仿真分析了AIS、Apriori和DHP三种基本算法的结构和特点,构造了一个分层搜索算法的时间复杂度模型,从事务规模、数据项平均长度和支持度三个方面,对分层搜索算法的时间复杂性进行了分析和验证。结果表明:在事务平均长度和频繁数据项集一定条件下事务规模对算法的时间复杂性影响是线性的;但算法却不能很好解决数据项长度(事务和频繁数据项平均长度)增大对其性能的影响。另一方面,本文以基于偏序关系的层次空间<L,≤>为基础,对分层搜索算法进行深入的理论分析,总结并证明了层次空间的几个基本性质,并在此基础上对已有的边界集性质和抽象分层搜索模型的复杂度结论给出严格证明。 针对工业现场数据库动态更新特点,分析了NBIA和FUP两种增量挖掘算法,提出了一种新的在增量数据库基础上进行分层搜索的快速更新算法IFUP。该方法避免了对原数据库的不必要扫描,性能要优于FUP。随后针对数据库中的模拟量属性,分析了非监督定量属性离散化的几种方法,在一个统计数据库基础上仿真研究了分别基于等宽、等频和聚类的布尔型分段离散化方法和模糊离散化方法。仿真表明,最终的挖掘结果与属性各分段中实例的分布特点有着密切联系;聚类划分在频繁数据项集数目较少时可以获得较多数量的关联规则;利用模糊离散化可以获得更多数量的频繁数据项集和关联规则。 论文的最后给出了一个工业回转窑烧结温度专家控制器的设计。为了解决回转窑烧结温度的检测问题,首先提出了一种基于多传感器数据模糊融合的窑温趋势检测方法,并给出了用于现场融合的传感器信号种类,为其自动控制改造奠定了基础。其次为了克服回转窑现场专家知识提取的难题,提出了一种基于时间序列的模糊定量关联规则挖掘算法,并利用它从现场数据库中获取初步的MIMO专家控制规则。最后分析了回转窑窑况的复杂性,重点讨论了专家控制器中多种控制策略的实施。系统现场运行数据表明该专家控制器具有优良的控制特性,给企业带来了显著的经济效益,证明了上述几种方法的有效性。