基于粒计算的海量数据挖掘算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:NO_IX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。然而随着互联网及数据库技术的不断发展,处理海量数据已经成为数据挖掘领域所要解决的一个重要课题。粗糙集理论,是一种处理不完备和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种信息,并从中发现隐含的知识,揭示潜在的规律。近年来在数据挖掘等多个领域得到广泛应用。粒计算是一种新的智能信息处理理论。现已成为国际上人工智能研究的主要方法之一。对于粒计算的研究,很大程度上是因为它模拟了人脑认识和解决问题的过程。采用粒计算思想的很多理论已经被广泛地应用于机器学习、数据挖掘等领域,并被证明是有效的求解问题的方法。 SMLGRC 算法把传统的 Rough Set 算法引入到粒计算理论中,并使得算法所获取的规则相对较短。但是该算法却无法处理海量数据集。为了解决这个问题,并且通过对信息表分层粒化模型的分析,一种粒分布链表在本文中被提出。结合成熟的数据库技术,为分层粒化模型中的粒子生成粒分布链表,解决了 SMLGRC 算法在处理海量数据时的内存限制问题。同时,样本覆盖因子的概念也在本文中被提出,该因子用来控制算法生成规则,它可以有效的避免冲突规则的产生,并且只有在产生冲突规则时起作用。改进的算法在不影响原算法有效性的基础上可以很好的适用于海量数据集。一系列的实验测试证实了该方法的有效性。
其他文献
学位
TCP应用于无线环境时,由于丢包多是由无线误码引起而不一定是拥塞丢包,其拥塞控制算法出现了不适应性,因此需要新的算法来修正。为了在Windows环境下测试新算法,我们需要修改TCP
随着Internet技术的发展及其应用的深入,网络功能不断强大,网络管理已成为网络系统的关键部分。网络规模的增大、网络元素数量的不断增加以及它们之间连接关系越来越复杂,使得网
随着网络和其它信息技术的广泛应用,网络系统的安全变得至关重要。入侵检测系统是保护网络系统安全的关键技术和重要手段,但现行的入侵检测不仅对新的攻击或特征未知的入侵无
随着信息技术在企业信息系统中的广泛使用,传统的封闭式系统暴露出很多难以克服的缺点,系统功能单一、结构死板、难以部署和更新的局限性阻碍了企业信息化的深入发展。为克服这
无线自组网相较于传统网络具有自组织和动态网络拓扑的特点,可广泛应用于军事通信、紧急救灾等场景。这些特点使无线自组网面临诸多威胁,比如窃听、篡改报文和拒绝服务等,因此安
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的有效获取成为各行业有效利用网络信息资源的
随着Internet的飞速发展和信息经济、网络经济等概念的提出,电子商务受到人们越来越多的关注。通俗地说,所谓电子商务就是指在电子技术的基础上进行的商务活动。其目的是替代传
在CAD/CAM造型系统中,由于NURBS作为一个统一的数学模型,既可以表示自由曲线曲面,又可以表示一些传统的几何曲线而成为工业产品制造中的一个标准。但NURBS方法的权因子、参数化、
中文自动分词是中文信息处理中的一个重要环节,长期以来一直是人们研究的热点和难点。在中文信息处理中,分词广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域。计