论文部分内容阅读
随着数据库以及其管理系统的广泛应用,数据库中存储的海量数据急剧增大。因此,频繁模式和多关系数据挖掘已成为数据挖掘中快速发展的重要研究课题。现实数据通常存储于由多个关系组成的关系数据库中,传统的频繁模式发现方法只能直接完成单一关系中的模式发现,如果要完成多关系数据的挖掘,会产生操作复杂性和效率低下等难题。
本文在研究原有频繁模式和多关系数据挖掘的基础上,总结频繁模式发现算法和多关系数据库存在的问题和不足,提出了解决效率问题的DS-ECLAT的频繁模式发现算法以及在分类准确度与执行效率之间折中的增强贝叶斯网络多关系分类(TAN-MRC)算法。论文主要创新点如下:
一方面,DS-ECLAT算法使用垂直数据格式挖掘频繁项集,在第一次迭代自连接频繁项集后的每一次迭代都无须扫描整个数据库。使用深度优先搜索最长项技术,依次优先查找某起始项的所有频繁项集。引入回写集(write-back sets)的概念,暂存新的频繁项集的子集,以减少项之间的对比次数。该算法相比ECLAT算法减少了内存的需要,提高了运行效率。
另一方面,现有的TAN方法通过计算互信息来发现属性节点之间的强依赖性,放松了朴素贝叶斯网络的条件独立假设。本文改进的TAN-MRC算法沿用这一优点,假设表之间的属性是相互独立的,致力寻找表内属性的强依赖性,在构建模型时以表为单位建立最大权重生成树,最后加入类结点C生成TAN-MRC模型。
原元组ID传播方法仅允许类标非正即负,TAN-MRC算法扩充了该限制,允许存在多重分类目标。实验证明改进的算法比多关系相互贝叶斯算法Graph-NB时间开销稍大,但放松了朴素贝叶斯分类的条件独立假设,而允许属性结点之间添加新的向量弧,有效地提高了分类的准确率,可较好地应用到多关系数据库中。