论文部分内容阅读
科学技术和工业生产的发展,对质量要求越来越高。五十年代以来,火箭、人造卫星、宇宙飞船等大型、复杂、精密的产品出现,对产品的安全性、可靠性、经济性等要求越来越高,因此产品的质量问题就显得更为突出。在企业的质量管理活动中,不论是决策分析,还是质量控制,都需要对大量的质量数据进行分析,质量数据具有波动性,而由其中的异常波动对产品质量产生的影响是可以避免的。面对生产过程中产生的大量的数据记录,如何高效地检测出那些异常数据记录,并对其进行分析,进一步确定引起该数据异常的实际原因,从而采取相应的措施以提高产品的质量,将具有十分重要的现实意义。而这正是数据挖掘中孤立点(异常点)分析方法的研究内容。
孤立点分析是数据挖掘技术中一个非常重要的研究方向,所谓孤立点就是那些明显偏离其它数据、不满足数据的一般模式或行为,以至于被怀疑可能是由另外一种完全不同的机制产生的数据对象。孤立点分析过程大致可以被看作3个子问题:1什么样的数据是不一致的,即孤立点的定义;2找到一个有效的方法来挖掘这样的孤立点;3对孤立点的合理解释,即孤立点的内涵知识(Intensional Knowledge)。
目前,仍没有相关研究将孤立点分析技术应用于质量管理过程中。本文尝试将孤立点分析技术应用于质量管理中进行研究,挖掘出质量数据中的异常数据对象,并着重研究分析这些异常对象蕴含的内涵知识。本文的主要工作可以概括为以下五个方面:
1对质量管理及质量数据的特征和分类进行了介绍,并对质量管理中的孤立点分析应用现状进行了概述。
2对孤立点分析进行了概述,重点介绍了现有的几类具有代表性的孤立点检测算法,分析其优缺点、使用领域及改进方向,并对各种算法在质量管理中的可用性进行了分析。
3对孤立点内涵知识挖掘的研究现状进行了综述,在现有研究的基础上,结合质量数据的特征先后提出了一个基于距离和的孤立点内涵知识挖掘算法(Finding Intensional Knowledge of Distance Sum-basedOutlier,IKDSO算法)和一个基于属性子空间的孤立点内涵知识挖掘算法(Finding Intensional Knowledge of Attribute Subspace-based Outlier,IKASO算法),可以认为IKASO算法是对IKDSO算法的一个改进。
4受IKDSO算法和IKASO算法给出的孤立点内涵知识的启发,结合质量数据集的特征提出了一个基于孤立点相似度的孤立点聚类算法(AnAlgorithm for Clustering of Outliers Based on Outliers Similarity,ACOOS算法),该算法对孤立点的原因属性集的分布特征进行分析,首先计算孤立点的相似度,再结合聚类的思想对孤立点进行分类。
5将本文提出的IKDSO算法、IKASO算法和ACOOS算法应用到质量管理系统中进行实验,用实际的质量数据集对算法进行了验证,实验结果表明算法是有效性的和实用的,可操作性较强。