论文部分内容阅读
粗糙集(Rough Set)理论在处理模糊分类、属性约简等数据挖掘基本问题时有着广泛的应用。粗糙集属性约简运行效率并不高,而当今社会正处于一个信息爆炸的时代,对于大规模数据能够快速有效的处理是对于数据挖掘算法的要求。如何快速提高约简方法的效率是本文考虑的重点。本文利用粗糙集理论知识,对于基于属性重要度的属性约简算法进行了研究。针对粗糙集属性约简算法效率相对较低的缺陷,提出了一种并行化实现的思路。并设计了一种基于典型相关性分析的属性融合的预处理方法,来进一步提高算法的效率和约简的效果。本文主要研究内容如下:1.提出了一种基于典型相关性分析的属性融合方法CCAFusion。首先,通过均分的思路,将原始属性集合分割成多个子属性集合,每个子属性集合被分别看做原目标的一个子视图;然后,通过对于这些视图进行典型相关性分析,得出视图特征之间的相关性情况;最后,按照相关性由大到小的顺序合并属性,将子视图再次合并到一个视图中,同时约简了相互之间相关性高的属性。实验结果表明该方法可以有效降低特征维度,并提高原数据的分类精度。2.提出了一种并行化的粗糙集属性约简算法P-RoughReduction。首先,根据粗糙集理论定义一种属性重要度的度量方法,设计了一种基于属性重要度的粗糙集属性约简算法;然后,分析出属性重要度的计算其实是一个独立的序列,这符合并行计算的条件。在MapReduce分布式编程框架下,并行化实现了粗糙集约简算法,实验结果表明在Hadoop集群中,本文提出的并行化约简算法的运行效率有明显的提升。3.本文将CCAFusion算法和P-RoughReduction算法结合,提出了一种混合的属性约简方法P-CCARoughReduction。在实验中表明,这种混合算法不仅运行效率上表现良好,而且得到的约简效果上也得到明显提升。最后,将本算法应用到海量数据挖掘工具箱Dodo中的数据预处理模块当中。