论文部分内容阅读
数据挖掘是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。然而随着互联网及数据库技术的不断发展,处理海量数据已经成为数据挖掘领域所要解决的一个重要课题。粗糙集理论,是一种处理不完备和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种信息,并从中发现隐含的知识,揭示潜在的规律。近年来在数据挖掘等多个领域得到广泛应用。粒计算是一种新的智能信息处理理论。现已成为国际上人工智能研究的主要方法之一。对于粒计算的研究,很大程度上是因为它模拟了人脑认识和解决问题的过程。采用粒计算思想的很多理论已经被广泛地应用于机器学习、数据挖掘等领域,并被证明是有效的求解问题的方法。
SMLGRC 算法把传统的 Rough Set 算法引入到粒计算理论中,并使得算法所获取的规则相对较短。但是该算法却无法处理海量数据集。为了解决这个问题,并且通过对信息表分层粒化模型的分析,一种粒分布链表在本文中被提出。结合成熟的数据库技术,为分层粒化模型中的粒子生成粒分布链表,解决了 SMLGRC 算法在处理海量数据时的内存限制问题。同时,样本覆盖因子的概念也在本文中被提出,该因子用来控制算法生成规则,它可以有效的避免冲突规则的产生,并且只有在产生冲突规则时起作用。改进的算法在不影响原算法有效性的基础上可以很好的适用于海量数据集。一系列的实验测试证实了该方法的有效性。