论文部分内容阅读
近年来,随着计算机技术的发展、数据管理技术的成功应用、企业内部信息化程度的不断提高,各个应用领域的数据库中都积累了海量的数据。利用数据挖掘技术能够从大规模的数据中获取正确的、有趣的、潜在有价值的知识。而关联规则挖掘则是其中一个重要的研究方法,具有重要的理论价值和广泛的应用前景。当前,关联规则的挖掘受到了相当的关注,现有的关联规则算法多是基于Apriori思想和Fp-growth思想的迭代算法。本文深入分析了频繁项集的挖掘问题,对现有的频繁项集挖掘算法进行了系统的归纳和分类,根据数据库的表示方法主要分为两大类:水平数据表示和垂直数据表示,并针对这两大类的经典代表算法Apriori算法和Fp-growth算法进行分析,指出了他们各自的优缺点。通常采用垂直数据库表示的挖掘算法性能优于水平算法,本文深入研究和分析了采用垂直数据库表示的Eclat算法,并在其基础上提出了改进的算法——DEclat。改进算法将划分思想与Eclat算法相结合,并突出了基于概率的先验约束方法,把数据库中的事务划分成n个非重叠的部分,对每一部分采用Eclat算法思想,希望能减少每次交操作时Tidset的规模,减少交操作时的比较次数;通过基于概率的先验约束,减少产生的局部频繁项集数,提高算法的效率。现有的挖掘含负项目的关联规则算法为数不多,而且多是基于Apriori思想的迭代算法,需要对数据集进行多次扫描,同时生成大量的候选频繁项集。在研究国内外相关学者的研究成果的基础上,本文根据差集垂直数据表示的思想,提出一种利用Diffset差集垂直数据表示来构造负项目的频繁项集挖掘方法,该算法能挖掘出所有符合阈值条件的正负频繁项集,由于算法利用了垂直数据库结构,不需要多次扫描数据库,也不需构造频繁模式树,只需扫描数据库一次,算法的时间效率较同类算法高。