论文部分内容阅读
数据工程负责信息系统中数据的设计、研究开发、管理和利用,具体包括:数据库设计,数据知识及处理,数据的语言描述,访问及利用数据库,数据访问的策略及技巧,安全性及完整性的控制,工程服务及分布式系统等。互联网时代,面对以惊人速度增长的海量数据,数据工程不仅要研讨、解决海量数据的存储问题,更为关键的是要依托新理念、新技术和新系统来寻求枯燥数据背后蕴涵的有效知识,用于决策分析,更方便快捷地满足不同对象的查询或决策等需要。
流程工业作为一个国家的主导行业,对国民经济的发展起着举足轻重的作用。随着流程工业信息化程度的日益提高,数据存储系统有大量的控制参数数据以数据库的形式存储在各个主机上,这些数据太多而知识贫乏(Datarich,Informationpoor),从数据工程角度看,加大对历史数据资源的分析利用便成为一种趋势。
本文以数据工程理论为基础,在广泛查阅相关文献、了解相关研究进展的基础上,深入进行了数据挖掘与知识发现算法的研究与改进,并系统地提出了流程工业中知识发现应用方案,课题研究的过程如下:
第一,广泛收集资料,熟悉流程工业生产的特点,并实地考察水泥生产线的生产过程,详细了解水泥生产工艺。
第二,在熟悉水泥工艺的基础上选取合适的控制参数作为研究对象,将控制参数数据从DCS中导出并进行清洗、转换等处理后载入数据仓库,利用本文提出的适用于流程工业数据预处理化方法对数据进行整合,为数据挖掘作好准备。
第三,深入研究了关联规则挖掘技术,并对关联规则基本算法Apriori算法进行了仿真,针对基本关联规则算法的缺点及流程工业数据量大的特点,提出了一种改进的关联规则算法,实验证明该算法大大提高了挖掘效率,并一定程度上解决了冗余问题。
第四,设计了用于流程对象知识提取的系统结构,将改进的算法应用于流程对象知识提取中。以水泥生产过程为实例,提取了水泥锻烧过程中的运行规则,对于引起重要参数波动较大的操作提出了建议性的规则,从而达到改善控制效果和提高装置运行平稳性的目的。
实验结果证明本文提出的方案可以迅速建立流程工业知识发现模型,该模型可以提取出流程工业中的一些运行规则,发现控制参数的相关性,找出影响关键工艺参数的主要因素,这些知识与现场操作人员分析总结的规律是相符的,说明了该方案的有效性和可靠性,可以应用到专家系统中去。