论文部分内容阅读
近几年来,随着计算机软硬件技术的不断发展和应用范围的不断拓展,各个领域广泛出现了大量的不确定性数据。由于数据的不确定性,传统关联规则挖掘方法难以适用于不确定性数据。对不确定性数据进行挖掘算法的研究已经成为了数据挖掘领域的新热点。不确定性数据挖掘主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中关联规则挖掘是重点研究的问题之一。 绝大多数关联规则挖掘算法的整个挖掘过程缺乏用户的主动参与和控制,使用户无法根据挖掘进程和挖掘数据的特点来改变其参数或施加特定的约束,导致用户很难得到满意的结果。如果存在针对约束的关联规则挖掘算法进行挖掘处理会使整个挖掘过程更加快捷,也更具有针对性。经过研究与分析发现,目前对于不确定性数据关联规则挖掘算法的研究大都集中在挖掘完全频繁项集,而对基于约束的不确定性数据关联规则挖掘的研究尚不多见。因此,对基于约束的不确定性数据关联规则挖掘进行深入的研究具有重要的意义。 本文首先阐述了课题的研究背景和研究意义,概述了不确定性数据的产生原因和表现形式,讨论了不确定性数据关联规则挖掘的研究现状,然后对传统关联挖掘的经典算法进行了简要的介绍,重点讨论了不确定性数据中用于关联规则挖掘的U-Apriori,UF-growth算法,U-Eclat算法以及UH-mine算法。随后,本文分析和归纳了解决基于约束的不确定性数据关联规则挖掘的不同方案,并通过实例分析基于频繁模式树结构的U-FPS算法,详细介绍了该算法针对两种不同约束条件(反单调且简洁约束条件SAM和单调且简洁约束条件SUC)的实现过程和算法的优缺点。最后本文提出了基于约束条件的不确定性数据关联规则挖掘的US-Eclat算法,并通过实例详细介绍了该算法针对两种不同约束条件下的工作原理。US-Eclat算法是在Eclat算法的基础上提出来的,该算法仅需对原始数据库扫描一次,并充分利用了概念格对项集进行有效修剪,有效解决了基于约束条件的不确定性数据关联规则问题。经过实验将US-Eclat算法与U-Apriori和U-FPS进行性能比较得知,US-Eclat算法的性能和效率均有较大程度的提高,达到了优化算法目的。