论文部分内容阅读
随着IT技术、电子商务及互联网的迅速普及,使得在各个领域中存储了大量的数据信息,这些数据集中包含了很多有用知识,因此如何从大量的数据中发现潜在的,有用的知识,以辅助相应的应用领域显得尤为重要,这正是数据挖掘所要解决的问题。关联规则挖掘作为数据挖掘的一个重要研究分支,其主要研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律与数据间的联系,且其形式简单、易于理解,是从大型数据中提取知识的主要手段,故关联规则挖掘的研究与应用已经得到数据库、人工智能及统计学等领域学者的极大关注,并取得了不少的研究成果。Apriori算法是关联规则挖掘算法中最经典、应用最广泛的方法,尽管其候选产生-检查步骤,及其典型性质“频繁项集的子集为频繁项集,任何非频繁项集不可能为频繁项集的子集”大幅度压缩了候选项集的数目,但随着数据库规模的扩大,由Apriori算法产生的候选项集仍是巨量的而频繁项集在候选项集中所占的比例却如此的小,所以算法的挖掘时间主要浪费在验证巨量候选项集的非频繁性上,有一种喧宾夺主的感觉。而验证候选项集频繁性的决定属性为其在数据库中的支持频度与用户所设置的最小支持频度阈值的比较,若项集的支持频度满足最小支持频度阈值则为频繁项集,否则为非频繁项集。为了减少Apriori算法中过渡候选项集产生的数量,本文通过对候选项集支持频度的研究,总结了五条规律,并将其应用到Apriori算法中以提高候选项集中频繁项集的命中率,这些规律并从理论与大量的试验得到证明。在算法中同时加入了独立支持频度与差值支持频度,以发现本身为频繁项集但由于独立支持频度的存在其父项集为非频繁性的项集。本文主要由三部分组成:第一部分主要介绍了数据挖掘的相关内容,并对一些常用技术作了详细说明与探讨,主要体现在第二章。第二部分说明了关联规则挖掘算法所涉及的定义,同时深入研究了典型关联规则挖掘算法-Apriori算法。第三部分通过对Apriori算法中的候选项集支持频度的深入研究总结了五条规律,并将这五条规律应用到Apriori算法中,通过理论分析与数据库文图加以证明,并通过大量实验验证了加入规律后的算法比直接利用Apriori算法减少了候选项集的数目且在一定程度上提高了算法的效率。