基于典型相关性分析的粗糙集属性约简研究及其并行化实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:panzx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集(Rough Set)理论在处理模糊分类、属性约简等数据挖掘基本问题时有着广泛的应用。粗糙集属性约简运行效率并不高,而当今社会正处于一个信息爆炸的时代,对于大规模数据能够快速有效的处理是对于数据挖掘算法的要求。如何快速提高约简方法的效率是本文考虑的重点。本文利用粗糙集理论知识,对于基于属性重要度的属性约简算法进行了研究。针对粗糙集属性约简算法效率相对较低的缺陷,提出了一种并行化实现的思路。并设计了一种基于典型相关性分析的属性融合的预处理方法,来进一步提高算法的效率和约简的效果。本文主要研究内容如下:1.提出了一种基于典型相关性分析的属性融合方法CCAFusion。首先,通过均分的思路,将原始属性集合分割成多个子属性集合,每个子属性集合被分别看做原目标的一个子视图;然后,通过对于这些视图进行典型相关性分析,得出视图特征之间的相关性情况;最后,按照相关性由大到小的顺序合并属性,将子视图再次合并到一个视图中,同时约简了相互之间相关性高的属性。实验结果表明该方法可以有效降低特征维度,并提高原数据的分类精度。2.提出了一种并行化的粗糙集属性约简算法P-RoughReduction。首先,根据粗糙集理论定义一种属性重要度的度量方法,设计了一种基于属性重要度的粗糙集属性约简算法;然后,分析出属性重要度的计算其实是一个独立的序列,这符合并行计算的条件。在MapReduce分布式编程框架下,并行化实现了粗糙集约简算法,实验结果表明在Hadoop集群中,本文提出的并行化约简算法的运行效率有明显的提升。3.本文将CCAFusion算法和P-RoughReduction算法结合,提出了一种混合的属性约简方法P-CCARoughReduction。在实验中表明,这种混合算法不仅运行效率上表现良好,而且得到的约简效果上也得到明显提升。最后,将本算法应用到海量数据挖掘工具箱Dodo中的数据预处理模块当中。
其他文献
基于位置的服务是移动互联网发展的重要方向。随着智能手机等智能移动设备的普及,越来越多的基于用户位置信息的创新应用出现,基于位置的服务正在深刻地改变着人们的生活方式
数字图像处理作为一门崭新的学科,已经在卫星遥感、军事侦察、生物医学工程等方面取得成功的应用,并发挥越来越重要的作用。各种成像技术被应用到无损检测领域,如超声成像、射线
以信息电器为代表的嵌入式应用系统真正拉开了嵌入式系统大发展的序幕,它必将进一步推动IT产业的发展,给人类的生产、生活带来深远的影响。嵌入式系统自诞生以来经历了一个从无