论文部分内容阅读
在信息时代的今天,如何有效地利用大量的原始数据来分析现状以预测未来,已经成为人类面临的一个重大挑战。数据挖掘是致力于数据的分析和理解、发现数据内部蕴含的大量知识技术。目前,数据挖掘已经成为当今学术界的一个研究热点,同时,关联规则挖掘是数据挖掘技术中最活跃的研究方法之一。它是用于发现数据库中不同项目集之间的关系,而怎么快速发现频繁项集是关联规则数据挖掘技术的一个核心问题。
如今,关联规则已经被广泛应用于各个领域,但是算法效率不高,并且会产生很多冗余规则,本文针对此问题,根据关联规则挖掘的要求和特点,结合RS理论的属性约简方法和进化算法的思想,提出了一种改进的关联规则挖掘方法,该方法是是把关联规则挖掘过程分成两阶段处理,第一阶段,是利用RS属性约简技术对决策表进行冗余属性约简,第二阶段是对约简后的决策表利用进化算法进行关联规则挖掘。最后通过实例验证改进后的方法具有高实用价值,并且可以很好地解决原始方法中存在的问题。本文的主要工作概括如下:
1.对关联规则挖掘技术的定义,性质、挖掘算法、挖掘过程及其研究状况进行介绍,并详细讨论了经典的Apriori算法,和运算过程不产生频繁项集的FP-growth算法。
2.提出了一种改进的差别矩阵属性约简算法,其思想是从原始的差别矩阵属性约简方法上进行反思想约简,目的找出对决策影响很小,甚至没有影响的属性,然后删除,较以往的算法意义更加直观,计算也更加简单,并且在一定程度上减低了存储空间要求和提高了约简算法的速度。
3.提出了结合RS属性约简方法和遗传算法(Gas)的关联规则挖掘模型,从它的编码方法、适应度函数的构造、遗传算子的设计等方面都进行了详细的讨论和分析。最后,用实验数据证明该方法的可行性、有效性。
4.针对传统GAs收敛速度慢和交叉算子和变异算子带来的盲目性和随机性的问题,本文还讨论了一种在Gas基础上发展起来的新型进化优化算法,即分布估计算法(EDAs)。该算法具有良好收敛性能的同时,具有很好的维持群体多样性的能力。并把该算法与RS属性约简方法应用到关联规则挖掘上,取得了很好的效果。