论文部分内容阅读
随着数据库技术的发展和人们获取数据手段的多样化,人类拥有的数据量飞速增加,并且面临着数据丰富而知识贫乏的窘境,数据挖掘技术使人类摆脱了这一困局。数据挖掘有效地融合了数据库、人工智能、数理统计、机器学习和模式识别等多种学科,可以从大量的、有噪音的数据中提取隐含在其中的、事先未知的、数据拥有者可以理解的和潜在有用的信息和知识,在零售业、电信业、金融业等领域有着广泛的应用。关联规则挖掘是目前数据挖掘领域中研究最为广泛的课题之一。自1993年Agrawal R.等人提出了关联规则问题起,诸多学者对该问题进行了大量研究,并提出了很多新算法。本文在对关联规则挖掘问题研究和总结的基础上,对关联规则经血Apriori算法进行了详细的阐述和分析。基于Apriori算法的不足,提出了关联规则更新问题,并将更新问题分为阈值动态调整和数据库动态更新两类,对于每类更新问题分别给出了更新算法,其中详细介绍了FUP算法和PFUP算法。考虑到数据库更新包括数据删减和数据增加两种情况,给出了一种新的更新算法,同时该算法在PFUP算法的基础上还提出了频繁新项集的概念,大大拓展了算法的使用范围。由于上述算法都是基于Apriori算法的,而Apriori算法多次扫描数据库和产生大量候选项这两项缺点严重影响了算法的效率,本文在ABM和ABBM算法的基础上,提出了基于矩阵的关联规则算法,其中设置了中介矩阵,为更好解决更新问题提供了基础。最后,综合前面几章的内容,给出了基于矩阵的关联规则更新算法。该算法彻底摆脱了Apriori算法模式的窠臼,同时考虑到更新问题的两种情形,不需扫描原数据库,只需扫描发生更新的数据库部分,实现了关联规则高效更新。