论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的模式。数据挖掘技术己经引起了信息产业界的广泛关注。关联规则是其中一个主要的研究方向,有着广泛的应用价值。关联规则研究取得了很多有价值的结果同时也面临很多挑战。分布式挖掘与增量式更新问题就是其中两个研究热点。本文对这两个问题作了一些探讨。
分布式挖掘研究的是如何从分布在不同地方的数据中有效地找出有用的知识。本文结合某财政系统的实际需求,提出了一种基于 JADE (Java AgentDEvelopment framework) 平台的分布式数据挖掘技术方案,并在此平台上实现了Apriori关联规则挖掘算法。在对财政数据进行预处理后,我们进行了关联规则挖掘试验,得出了一些有意义的规则。
在实际的关联规则挖掘应用中,人们并不总是能一下子找到自己感兴趣的关联规则,而是通过不断调整最小支持度阈值和最小置信度阈值,最终获得自己感兴趣的关联规则。这是关联规则更新问题研究的一个重要方面。本文提出了一种基于FP-Growth算法的面向更新的关联规则挖掘算法。该算法使用一种特殊链表作为存储结构,将事务数据库压缩存储在一种链表中,同时在挖掘中避免了递归挖掘大量条件FP-树的缺陷,并且当用户改变最小支持度阈值时,不需要再次扫描数据库,因而具有较好地适应关联规则挖掘的更新问题。算法分析表明,该算法具有较好的时空性能。
本文提出的这种针对财政系统具体需求挖掘方案,采用了将局部关联规则逐层综合的方法,但是如果需要挖掘全局关联规则,采用这种方法并不合适,下一步要进行在分布式数据库中挖掘全局关联规则的研究。