论文部分内容阅读
随着社会信息化的高速发展,数据挖掘技术在各领域的重要作用日益凸显出来。分类是数据挖掘领域的一种重要分析手段,而关联规则挖掘是数据挖掘领域的一个重要研究方向,两者作为数据挖掘中两个高度活跃的研究领域,有着一定的相似性—挖掘关联性强的项目集。由此以来,将这两项重要技术组合在一起,即把关联规则挖掘用于分类任务,便开启了数据分类的新征程—关联分类。关联分类实质上就是基于关联规则的分类,它既反映了知识的应用特点—分类或预测,又体现了知识内在的关联特性。各关联分类方法之间的不同之处主要体现在两个方面:挖掘频繁项集所用的方法和如何分析挖掘出的规则并将其用于分类。本文在分析与比较现有关联分类算法的优势和不足的基础上,提出了一种基于P-Trie树的关联分类算法CARPT。算法使用垂直数据格式来压缩存储原始数据库,在减少数据库扫描次数的同时,方便支持数计数,从而提高算法效率;算法把频繁项集视为字符串,采用P-Trie树来存储频繁信息,然后挖掘分类关联规则,另外,其在P-Trie树构造过程中加入对频繁项类别标签支持数的计数,使其能直接去除不能生成频繁规则的频繁项目,相当于对P-Trie树的预剪枝,可有效减少P-Trie树的节点数目,进而减少挖掘过程的遍历时间。实验结果表明,该算法的分类准确率和算法效率相对CBA和CMAR算法有所提高,算法克服了CMAR算法中存在冗余节点的不足,明显节省了内存空间。因此,该算法是有效可行的。