论文部分内容阅读
随着数据库和互连网技术的发展,许多组织积累了相当丰富的数据,显然,这些数据蕴含着很多有用的知识,于是利用这些知识为组织创造更多的财富便成为火热的话题。但是,靠人的直觉和手工处理是无能为力的,在数据丰富但知识贫乏的现象面前,数据挖掘技术应运而生。
该文首先详细地说明了数据挖掘技术产生的实际背景,数据挖掘技术的概念,数据挖掘应用的相关方法,数据挖掘处理的对象以及它丰富的应用领域。作为数据挖掘研究的重要问题,文章阐明了关联规则挖掘的定义及经典的关联规则挖掘方法Apriori算法,分析了Apriori算法的不足之处,说明了目前为止人们对该算法的改进。
按照以人为中心进行数据挖掘的理念,应该对关联规则进行交互式挖掘,该文从两个方面对之进行了研究:约束关联规则的快速挖掘和频繁项集的快速更新。
对于约束关联规则的快速挖掘,该文系统的分析了实际中经常遇到的约束的种类,对约束进行了分类,为了把约束尽早的用于挖掘过程,实现用户和系统的交互,提出了约束关联规则挖掘的体系结构及ccc优化原则。但按照一般的优化方法进行挖掘未必有最优的性能,对于项在规则的头和体中是否出现一类的约束,该文提出了一种基于事务数据集修剪的挖掘方法。实验证明,该方法较一般的优化方法有较好的性能。
在交互挖掘的过程中,用户经常要改变挖掘的条件,寻找感兴趣的规则,于是频繁项集的更新便是一个非常关键的问题,解决此问题的最简单方法是将Apriori算法重新执行一遍,但这显然不是高效的,因为以前挖掘的结果没有得到充分的利用,显然,解决此问题的关键是频繁项集的更新,文章提出了数据集,支持度和可信度变化时频繁项集的更新方法。实验证明,该方法较重新执行一遍Apriori算法需要较少的时间。