论文部分内容阅读
关联规则更新研究是继关联规则挖掘研究之后,又一影响深刻的数据挖掘技术。随着数据库的事务日渐增多,以及人们对关联规则支持度和置信度要求不断改变,关联规则的后期维护给研究人员提出了新的挑战。在实际应用中,挖掘出的关联规则可能会存在大量的冗余、虚假,在这种情况下,因为事务库或需求的变更而把所有的关联规则都进行更新显然是不太合理、且往往具有较大的开销。针对关联规则的后期维护问题,特别是在事务库发生变化后,如何有效地更新关联规则是本文要解决的主要问题。如果能只针对具有实用价值的关联规则进行更新,既可节约更新代价,也能满足用户实际需求。关联规则的前件和后件间蕴含着一种依赖关系,这种依赖关系的强弱由关联规则的置信度的大小来衡量,因此,建立一个能准确反映关联规则前后件依赖关系的模型,进而构建能有效进行关联规则更新的方法,具有重要的理论意义和实际价值。本文的主要工作及贡献可概括如下:·为了构建反映关联规则前后件之间依赖关系的贝叶斯网,本文针对贝叶斯网的有向无环图结构构建这一关键点和难点,利用关联规则中前后件属性间的依赖关系,给出了带有条件依赖关系的贝叶斯网结构构建算法。基于构建得到的有向无环图结构,本文通过对数据库中的历史事务数据分析,采用似然估计算法,计算贝叶斯网中各结点的条件概率表,从而得到反映关联规则前后件属性状态条件依赖关系的贝叶斯网。·概率推理是将贝叶斯网应用于实际问题的核心计算任务,考虑到本文构建的贝叶斯网结点状态较多,为保证推理的效率,本文基于一种近似采样思想,提出了贝叶斯网的近似概率推理算法,在给定的后件属性状态情形下对前件的属性状态进行预测,并以预测的各属性最优状态替换有待修正的状态,实现关联规则的更新。·采用互联网中采集到的实际事务数据,我们实现并测试了本文提出的贝叶斯网构建及推理方法,以关联规则更新后的置信度提升幅度测试了本文方法的有效性。