论文部分内容阅读
随着数据库和计算机网络的广泛应用,工、商、企业、政府部门所拥有的数据量急剧增大。这些部门越来越强地依赖于对它们的数据集进行分析和处理来制定具有竞争力的决策和策略。而目前的数据分析工具很难对数据进行深层次处理,数据的迅速增加与现有的数据分析方法的滞后之间的矛盾越来越突出。因此迫切需要研究相应的方法和工具来从大量数据中智能地、自动地提取出有价值的知识和信息。于是一个新的研究领域——数据挖掘(Data Mining)就在这种背景下产生并迅速发展起来了。目前越来越多的研究者投身其中。近年来为了处理数据仓库和Internet上浩如烟海的信息数据,以IBM、MICROSOFT等大公司为首的工商业投入大量的资金研究数据挖掘技术和工具,各国也投入了大量的资金开发适合其国情的数据挖掘系统和工具。目前,数据挖掘已经成为一个国际前沿的研究领域。 第一章首先介绍了什么是数据挖掘,包括数据挖掘的产生背景和定义,介绍了目前国内外数据挖掘中研究的一部分重要内容的概况,包括关联规则、数据综合和概括、数据分类、数据聚类等。最后介绍了数据挖掘在研究和应用中所面临的挑战,正是这些挑战推动了数据挖掘研究的进一步发展。 关联规则挖掘是目前数据挖掘中研究得比较多的课题。关联规则挖掘问题通常分解成两步进行:(1)找出所有满足最小支持度的所有项集即频繁集;(2)从频繁集中提取出满足最小支持度的规则。其中最关键的一步是频繁集产生。第二章介绍了频繁集产生算法的传统思路,并提供一种新思路供大家参考。 目前绝大多数频繁集产生算法都是采用类似Apriori算法的思想即一个频繁集的任意子集都是频繁集。但是象这样产生候选集的开销极大,特别是存在有长频繁集或最小支持度非常小时。分析得知,Apriori算法的瓶颈是候选集的产生及验证。若能够避免产生大量的候选集,算法的性能将大大地提高。第三章构造了一个新的数据结构频繁树,用以存储频繁项集的重要信息,并给出了基于该频繁树的频繁集的挖掘算法,该方法能够避免重复扫描数据库,避免产生大量的候选集,大大地减少搜索空间。实验结果表明该方法是一更高效的方法。 目前绝大多数的关联规则挖掘主要是挖掘正关联规则。实际上,挖掘正关联规则和负关联规则是同样重要的。从数学、形式逻辑等学科技术中也容易看出,负关系所起的作用与正关系一样重要。正如实数系统中需要负实数、逻辑系统中需要否命题一样,为了满足数据关系的完备性,我们需要负关联规则。另外,如何度量关联规则的不确定性是关联规则挖掘研究中的重要问题之一。而support-confidence模型是关联规则挖掘普遍应用的模型。它采用supp(XOY)和conf(X→Y)来度量关联规则的不确定性。然而,用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。因此,用conf(X→Y)来度量关联规则的不确定性是不够的。第四章基于概率论以及Piatetsky-Shapiro的观点给出了一个能同时挖掘正关联规则和负关联规则的算法,且构建了一个关联规则挖掘模型以度量关联规则的不确定性,同时阐明了该模型是度量关联规则不确定性的有效方法。