论文部分内容阅读
从大量的数据中提取或者“挖掘”隐含的知识是数据挖掘的主要任务,因此又称数据挖掘为数据库中的知识发现过程。数据挖掘涉及了多个新兴学科领域的知识,其发展和这些学科的发展相辅相成。关联分析是数据挖掘诸多功能中最为重要和应用最广泛的一种技术。关联分析用于发现数据间蕴涵的关联规则,关联规则描述了给定数据集的数据项之间的某些有趣联系。概念是人类进行知识表达的一种手段。数据库知识发现的过程就是将数据库中蕴含的知识形式化成有用概念的过程。概念格是知识的一种表现模型,依据知识体在内涵和外延上的依赖或因果关系,建立概念层次结构。概念格是一种基于概念和概念层次的数学化的表达,是应用数学的一个分支。目前,概念格被广泛应用于多个研究领域。在数据挖掘领域,概念格是提取关联规则的重要方法之一。本文首先介绍了数据挖掘的基本概念、应用范围、功能、分类、常用技术和存在问题及发展方向。其次介绍了关联分析的基本概念及一些关联规则的主要应用场合和挖掘方法。其中着重介绍了挖掘关联规则的一些常用算法(如Apriori算法)的基本思想,并讨论了这些算法的共性和为提高效率所采用的一些技术和方法。这些算法普遍面临着因为项集生成瓶颈而造成的效率低下问题,同时存在着挖掘出的规则包含大量冗余规则的问题。本文针对这些问题,做了一些相关的研究工作,主要内容包括:提出了一个基于基集的关联规则挖掘算法。基集是用采样的原理从原始数据集中提取出的一个子集,本文提出了一个称为“动态系统扩散”的方法来获得这个集合。该方法以一些用户感兴趣的种子项为基础,使用一种动态扩散的方法,通过扫描数据库得到与种子项存在较大关系的一个子集。这个子集相对于原始数据库来说具有较小的规模,因而在传统算法生成频繁项集容易遇到的频繁项集急剧增多而造成效率严重下降的问题上,有了明显的改善。同时,该算法产生的关联规则避免了大量冗余无效的规则,使之更容易形成被用户接受的知识。提出了一种约简概念格的构造算法,并把该算法应用于关联规则的挖掘中。该算法在频繁1项集的基础上,利用项集可以用事务标识号表示的特点,同时在建格过程中引入支持度比较的方法,提高建格的速度,并使得最后得到的概念格具有高度的约简性。在建好的约简概念格上,本文提出了两种方法可以快速提取出频繁项集,从而进一步挖掘出关联规则。提出了一种综合利用基集和约简概念格技术的关联规则提取算法。该算法以基集作为建格的基础节点,利用约简概念格的建格和提取算法快速地搜索出所有的频繁项集。本文最后尝试了把基于基集和约简概念格的关联规则提取算法应用于GIS中空间数据的关联规则挖掘领域中。通过空间连接索引(SJI)技术将空间数据进行适当的格式转换,可以把空间数据库转换成适宜于关联规则挖掘的数据形式。本文针对空间数据挖掘容易产生大量无用强规则的特点,应用了两种剔除冗余规则和无意义规则的方法,让最后产生的结果更加精简并符合用户的期望。