基于粗糙集的数据挖掘算法研究与应用

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:wuzhi1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为知识发现中的核心环节,数据挖掘能够从海量数据中提取有价值的信息,是当前人工智能和信息科学研究领域中的热点课题。基于粗糙集的数据挖掘,就是利用粗糙集理论及方法从数据中挖掘出新颖的、有用的知识的过程。决策树是数据挖掘中最常用的方法,具有速度快、结构简单、易理解等优点。然而在实际应用过程中,现存的决策树算法有着许多不足之处,本文将粗糙集与决策树相结合,对优化决策树算法进行了深入分析和研究。1、粗糙集部分。分析讨论了差别矩阵约简算法,并提出了简化差别矩阵约简方法。该方法用等价类构造差别矩阵,与单个元素参与差别矩阵构造相比更易得到决策表的约简;由于属性的知识量越大,说明它的区分力越强,提出了一种基于属性区分力的决策表知识约简方法。该方法将差别矩阵与属性区分力相结合,与基于正区域等方法相比,它更容易搜索到属性约简。2、决策树部分。结合粗糙集,提出了基于区分价值的决策树优化算法。该方法根据属性区分价值的不同,把属性分成两部分,能够较快地得到区分价值较高的候选属性;从知识约简和剪枝两方面对决策树算法进行优化,提出了一种基于粗糙集的决策树后剪枝优化算法。该方法首先利用基于属性区分力的约简方法计算出重要结点,且在剪枝过程中不必计算非重要结点的错误率,从而降低了决策树算法复杂度,提高了建树的效率。3、最后,对本文提出的基于区分价值的优化算法和基于粗糙集的决策树后剪枝优化算法分别与相关算法进行了实验评估与对比。实验结果表明这两种算法都具有可行性,取得了较好的效果。
其他文献
随着银行自动化建设的迅猛发展,ATM自动取款机在人们的日常生活中扮演的角色也越来越重要。但是,由于ATM机具有露天、无人值守的特点,由使用ATM机而引发的顾客与银行的财产纠
聚类算法是一种无监督的算法。它是一种将分散着的数据对象划分到相应的类当中的过程。在聚类之后,同一个类当中的数据对象及其相似的,相反,在不同类当中的数据对象则尽可能
无线频谱是无线网络中最珍贵的资源之一,随着无线网络的发展,未授权频谱资源越来越拥挤,而授权频谱的利用率却相对较低,为提高授权频谱的利用率,提出了认知无线电网络(CRN)。
互联网的域间路由系统使用边界网关协议BGP在不同自治系统之间传递路由可达性信息。作为BGP协议的一部分,内部网关协议iBGP用于在单个自治系统内部的路由器之间传播自治系统之
作为一类主要的组合优化问题,车辆路径问题(VRP)一直受到了计算机科学和运筹学界的广泛关注,在实际工业生产调度中发挥了重要的作用。然而随着交通线路的日趋复杂化以及客户
目前,获取图像的方法越来越丰富,得到图像的数量也在不断增多,近几年数字图像处理方面的研究工作受到了大量学者的关注,一些图像处理的基础研究工作也随之变得重要起来。在很
随着全球信息数字化进程的日益加快,二值图像因其存储简单、结构紧凑的优势得到广泛应用,许多重要资料以二值图像格式保存,所以研究二值图像中的信息隐藏对于信息安全和产权
传统的并行计算任务往往由大型的并行计算机来完成,因而并行机的研究也就成为并行计算的主要研究方向。随着经济和科技的发展,生物医学、天气预报、高能物理等领域的计算任务
随着网络技术和因特网的迅速发展,网络已经成为人们进行交流和相互联系的有效平台,它存储了大量的信息、数据。由于信息量的庞大,对于网络用户来说,如何能够及时地发现和利用有用
保护主机防止潜在的恶意移动代码(malicious mobile code)是移动代码安全的重要问题之一,当前国内外的很多研究机构针对此问题已经做了大量研究。其中,携带模型代码(Model Ca