论文部分内容阅读
近年来,随着数据库管理系统被广泛应用,以及计算机和网络的发展,产生了各种各样的数据。在如何从海量数据中提取有价值的知识和信息,更好利用这些数据,来预测未来发展趋势等迫切的需求下,数据挖掘便应运而生,引起了信息产业界和整个社会的广泛关注,成为目前研究热点之一。关联规则挖掘是数据挖掘的一个重要研究内容和研究热点之一。粗糙集与概念格是数据分析和知识处理的有力工具。粗糙集理论是一种处理不完备和不确定知识的数学工具,已经广泛应用于数据挖掘等领域。基于粗集属性约简,删除冗余属性,降低属性的维数,来减少数据挖掘规模和大量候选项集的产生,是粗糙集理论在数据挖掘领域的重要研究内容之一。而概念格产生于形式概念分析,它的每个结点实质上是一个最大项目集,通过构造概念格,利用Hasse图可视化的优点,方便计算支持度和置信度,以及快速地找出感兴趣的或有意义的关联规则,使用户能更好的分析挖掘结果,得到较好的关联规则。因此,利用概念格提取关联规则是有意义的。本文分析了经典的关联规则挖掘算法,对进一步需要研究的问题进行了分析,包括挖掘过程中产生大量候选项集、多次扫描数据库,以及当数据属性数目较多时挖掘效率低下等问题。分析了经典的属性约简算法,包括Pawlak属性约简算法,信息熵约简算法和Skowron矩阵约简算法,而这些算法要么不够直观,要么比较复杂,要么计算量大,空间性能较低,要么实现困难。接着以这些问题为突破口,将粗集约简和构造概念格关联规则提取这两种方法综合,实现关联规则挖掘。本文主要工作及结果如下:1)本文提出一种改进的基于知识划分粒度的决策表约简算法。该算法从知识划分粒度概念出发,定义了相对知识划分粒度和相对知识划分粒度的相对重要度,以相对知识划分粒度相对重要度为终止条件,求取相对属性约简集。该算法采用的启发式算法,首先通过决策表信息求出相对核,然后在核的基础上求出相应的相对约简集。并通过实验分析表明该算法是有效的,能得到精确的约简集,表现形式简洁,易于理解,易于在计算机上实现。2)本文将粗集约简和构造概念格关联规则提取这两种方法综合,来提取关联规则。主要思想是,在数据挖掘数据预处理阶段完成后,使用改进的基于知识划分粒度的属性约简算法对数据预处理好的数据进行属性约简,删除冗余属性,降低属性的维数,来减少数据挖掘规模和大量候选项集的产生。然后通过构造概念格算法对约简结果集构造概念格,通过Hasse图形式表现决策表信息。利用Hasse图可视化的优点,方便计算支持度和置信度,以及快速地找出感兴趣的或有意义的关联规则,使用户能更好分析挖掘结果,得到较好或感兴趣的关联规则。通过全球变暖的实例进行了实验分析和验证,表明将粗集约简和构造概念格关联规则提取这两种方法综合,是有效的,并能得到较好关联规则。3)在上述研究基础上,设计基于粗集约简构造概念格的关联规则挖掘原型系统。该系统具有普遍适用性,主要优点在于,减少了候选项集、数据挖掘规模和扫描数据库以及大量冗余的规则的产生,提高了挖掘的效率和准确性。