论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。数据挖掘由一些大型零售机构所面临的“决策支持"问题(decision support problem)所激发。应用条形码技术采集的大量销售数据成为挖掘的基础。通过对这些数据进行数据挖掘我们可以找到对于商业销售及生产极为有效的一些信息(这些信息通过具体的模式得到反映),从而可以提高销售和生产效率,降低成本,取得最大的商业效益,这就是数据挖掘的意义所在。本文描述了数据挖掘的概念、功能、过程以及发现模式的分类。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项集又是挖掘关联规则中的关键问题之一。 关联规则挖掘算法中寻找频繁项集的算法有很多,其中Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法,许多学者也提出了许多改进算法。以前的许多挖掘频繁项集的算法是先生成候选项集,再进行检验,然而候选项集产生的代价是非常高的,尤其是存在大量长模式的时候。本文主要在以下几个方面对基于逻辑与运算的关联规则挖掘问题进行了研究。 第一是研究了频繁项集支持矩阵的设计和构造过程以及多种改进算法,并分析了基于逻辑与运算进行频繁项集挖掘的可行性和完整性,然后提出了基于逻辑与运算的快速挖掘频繁模式的挖掘算法FIMA(Frequent Itemset Mining Algorithm)。该算法不需要生成频繁候选项集,并且只需要扫描事务数据库一次。利用矩阵存储频繁项集比利用图存储实现起来更容易,占用的存储空间也小的多。试验结果表明该算法比同样基于逻辑与运算的DLG算法挖掘频繁项集的效率更高。 第二是研究了挖掘有效且无冗余的关联规则的问题。传统算法在生成关联规则时,或者生成关联规则的效率很低,或者生成的关联规则之间存在着大量的冗余,或者挖掘出的关联规则的支持度和置信度都很高,但却是无趣的,甚至是虚假的规则,且不能产生带有否定项的规则。本文提出了一种新的算法