基于典型相关性分析的粗糙集属性约简研究及其并行化实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:panzx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集(Rough Set)理论在处理模糊分类、属性约简等数据挖掘基本问题时有着广泛的应用。粗糙集属性约简运行效率并不高,而当今社会正处于一个信息爆炸的时代,对于大规模数据能够快速有效的处理是对于数据挖掘算法的要求。如何快速提高约简方法的效率是本文考虑的重点。本文利用粗糙集理论知识,对于基于属性重要度的属性约简算法进行了研究。针对粗糙集属性约简算法效率相对较低的缺陷,提出了一种并行化实现的思路。并设计了一种基于典型相关性分析的属性融合的预处理方法,来进一步提高算法的效率和约简的效果。本文主要研究内容如下:1.提出了一种基于典型相关性分析的属性融合方法CCAFusion。首先,通过均分的思路,将原始属性集合分割成多个子属性集合,每个子属性集合被分别看做原目标的一个子视图;然后,通过对于这些视图进行典型相关性分析,得出视图特征之间的相关性情况;最后,按照相关性由大到小的顺序合并属性,将子视图再次合并到一个视图中,同时约简了相互之间相关性高的属性。实验结果表明该方法可以有效降低特征维度,并提高原数据的分类精度。2.提出了一种并行化的粗糙集属性约简算法P-RoughReduction。首先,根据粗糙集理论定义一种属性重要度的度量方法,设计了一种基于属性重要度的粗糙集属性约简算法;然后,分析出属性重要度的计算其实是一个独立的序列,这符合并行计算的条件。在MapReduce分布式编程框架下,并行化实现了粗糙集约简算法,实验结果表明在Hadoop集群中,本文提出的并行化约简算法的运行效率有明显的提升。3.本文将CCAFusion算法和P-RoughReduction算法结合,提出了一种混合的属性约简方法P-CCARoughReduction。在实验中表明,这种混合算法不仅运行效率上表现良好,而且得到的约简效果上也得到明显提升。最后,将本算法应用到海量数据挖掘工具箱Dodo中的数据预处理模块当中。
其他文献
基于位置的服务是移动互联网发展的重要方向。随着智能手机等智能移动设备的普及,越来越多的基于用户位置信息的创新应用出现,基于位置的服务正在深刻地改变着人们的生活方式
该文首先阐述了软件测试方法及其工具的发展概况,论述了各种结构测试策略和路径数据生成方法.控制流测试是一种被普遍接受的测试策略,但是许多程序的路径数太大甚至无穷,路径
数字图像处理作为一门崭新的学科,已经在卫星遥感、军事侦察、生物医学工程等方面取得成功的应用,并发挥越来越重要的作用。各种成像技术被应用到无损检测领域,如超声成像、射线
以信息电器为代表的嵌入式应用系统真正拉开了嵌入式系统大发展的序幕,它必将进一步推动IT产业的发展,给人类的生产、生活带来深远的影响。嵌入式系统自诞生以来经历了一个从无
该文在充分研究当前工作流管理软件的基础上,参照工作流管理联盟给出的工作流参考模型,设计了一个分布式工作流执行服务系统,其底层支撑环境采用CORBA组件技术.该文详细探讨
该文首先分析了人工神经网络特别是BP模型的原理,提出了用人工神经网络方法进行指标预测的可能性,设计并实现了指标预测系统,其中包括数据的收集与预处理、模型的确定、对指
该文阐述了系统总体设计思想和设计方案,详细设计方案,以及它的计算机实现.该系统是一个逆向软件工程的文档生成器,目标是提供对实际程序的分析以及可视化显示的工具,协助完
数据库更新是目前演绎数据库研究的一个重要的课题.实现数据库更新时遇到的重要问题就是如何进行视图更新并维护数据库一致.该文首先给出了对整个演绎数据库,包括EDB、IDB与I
该文首先分析了电子商务面临的安全威胁和对信息安全的需求,阐述了身份认证和数字签名在电子商务中的重要地位,从而展开对信息安全技术的讨论.论文接着介绍了密码学的基本概
计算机网络互连发展到今天已经形成一个大规模的复杂系统,这样一个系统所展现出的丰富的复杂行为,及其本身特征及其产生机制的研究,已经成为有关计算机网络研究中的一个前沿领域