论文部分内容阅读
数据挖掘面对的是大规模、超大规模的数据库或数据仓库,日益增长的海量数据,给数据挖掘提出了新的挑战。随着数据挖掘技术研究的深入与成熟,在挖掘过程中挖掘算法的效率提高越来越不明显,但是数据挖掘的预处理工作仍然没有明显的提高。于是数据预处理工作就显得越来越重要。数据预处理包括数据清理、数据集成和变换、数据约简等操作把原始的数据库或者数据仓库变换成适合挖掘的模式,为进一步的数据挖掘做准备。已有一些比较成熟的数据预处理技术,但面对日益增长的海量数据和日趋复杂的数据结构数据预处理还有很多工作要做。粗糙理论是用来处理模糊和不确定性知识的数学工具,是一种有效的软计算方法。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则,利用区分矩阵可以方便地求出数据约简。面对大数据集、或复杂的数据结构,人们又提出了区分矩阵的改进算法,以及和其他学科相结合的算法,来提高数据预处理的效率。属性约简是数据预处理的一个重要环节,已经证明求所有属性的最小约简是一个NP完全问题,所以,研究也只能从提高求约简的效率上来着手。本文从基本的粗糙集理论、数据预处理的基本知识入手,详细介绍了粗糙集约简的基本算法、一种改进的算法,Jelonek提出的基于属性重要性的算法,Hu提出的基于频率函数的算法;以及与遗传算法相结合的算法、粗糙集约简的一种贪心算法,这些算法都在一定程度上改进了基本的基于区分矩阵的属性约简算法,也都有其适应的特定环境,合理地运用能够有效地对数据进行处理,进而提高数据挖掘的质量和速度。本文在总结前人的研究成果的基础上,提出了一种基于属性重要性的粗糙集约简的并行算法,该算法借鉴文献[21]赵斌等人提出的贪心算法,把求逼近精度和属性重要性的工作合理地分配到多台处理机上分别计算,然后汇总数据,进而得到属性集的约简,经过理论分析和模拟实验,证明该算法是可行的、有效的。