关联规则挖掘算法研究

论文部分内容阅读

数据库中的知识发现(Knowledge Discovery in Databases,KDD)是当前涉及人工智能、数据库等学科的一门非常活跃的研究领域.数据挖掘(Data Mining,DM)作为KDD过程中的一个重要的步骤,用于从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式,常被看作是KDD的同义词.关联规则挖掘是数据挖掘的一个重要分支,用以发现所有满足最小支持度和最小置信度的强关联规则.近年来,关联规则挖掘研究成为数据挖掘中的一个热点,并被广泛应用于市场营销、事务分析等应用领域.关联规则挖掘算法是关联规则挖掘研究的主要内容,迄今为止已提出了许多高效的关联规则挖掘算法.该文对经典关联规则挖掘算法进行了系统的研究和全面的总结,在此基础上提出了新的关联规则挖掘算法,并应用于分布式数据挖掘.该文所做的创新性的工作主要如下:1.对传统关联规则挖掘的概念进行了扩展,引入交易的长度、交易的支持计数、交易之间的包含关系、频繁交易以及频繁子项集等概念.2.在对经典关联规则挖掘算法研究的基础上,提出一种基于交易的关联规则挖掘算法CSR.算法CSR基于交易长度,对数据库进行了压缩,整个挖掘过程对原数据库进行1次扫描,对压缩数据库进行2次扫描.与关联规则挖掘算法Apriori比较,减少了扫描次数,提高了挖掘效率.3.对CSR算法作了进一步的分析和改进,提出其改进算法CR,并通过实验分析其性能.与CSR相比,算法CR能够缩小频繁项集的候选集的规模,从而提高算法的效率,并且算法CR中的压缩数据库的结构也较算法CSR中压缩数据库的结构更为简练,节省了空间.4.将CR算法与Agent技术相结合,提出一种分布式关联规则挖掘系统的框架MARMS.该系统结构简单、易于实现,同时具备移动Agent和多Agent系统的优点,能有效完成分布式关联规则挖掘任务.

与本文相关的学术论文