数据挖掘中若干问题的研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lunlunyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和计算机网络的广泛应用,工、商、企业、政府部门所拥有的数据量急剧增大。这些部门越来越强地依赖于对它们的数据集进行分析和处理来制定具有竞争力的决策和策略。而目前的数据分析工具很难对数据进行深层次处理,数据的迅速增加与现有的数据分析方法的滞后之间的矛盾越来越突出。因此迫切需要研究相应的方法和工具来从大量数据中智能地、自动地提取出有价值的知识和信息。于是一个新的研究领域——数据挖掘(Data Mining)就在这种背景下产生并迅速发展起来了。目前越来越多的研究者投身其中。近年来为了处理数据仓库和Internet上浩如烟海的信息数据,以IBM、MICROSOFT等大公司为首的工商业投入大量的资金研究数据挖掘技术和工具,各国也投入了大量的资金开发适合其国情的数据挖掘系统和工具。目前,数据挖掘已经成为一个国际前沿的研究领域。 第一章首先介绍了什么是数据挖掘,包括数据挖掘的产生背景和定义,介绍了目前国内外数据挖掘中研究的一部分重要内容的概况,包括关联规则、数据综合和概括、数据分类、数据聚类等。最后介绍了数据挖掘在研究和应用中所面临的挑战,正是这些挑战推动了数据挖掘研究的进一步发展。 关联规则挖掘是目前数据挖掘中研究得比较多的课题。关联规则挖掘问题通常分解成两步进行:(1)找出所有满足最小支持度的所有项集即频繁集;(2)从频繁集中提取出满足最小支持度的规则。其中最关键的一步是频繁集产生。第二章介绍了频繁集产生算法的传统思路,并提供一种新思路供大家参考。 目前绝大多数频繁集产生算法都是采用类似Apriori算法的思想即一个频繁集的任意子集都是频繁集。但是象这样产生候选集的开销极大,特别是存在有长频繁集或最小支持度非常小时。分析得知,Apriori算法的瓶颈是候选集的产生及验证。若能够避免产生大量的候选集,算法的性能将大大地提高。第三章构造了一个新的数据结构频繁树,用以存储频繁项集的重要信息,并给出了基于该频繁树的频繁集的挖掘算法,该方法能够避免重复扫描数据库,避免产生大量的候选集,大大地减少搜索空间。实验结果表明该方法是一更高效的方法。 目前绝大多数的关联规则挖掘主要是挖掘正关联规则。实际上,挖掘正关联规则和负关联规则是同样重要的。从数学、形式逻辑等学科技术中也容易看出,负关系所起的作用与正关系一样重要。正如实数系统中需要负实数、逻辑系统中需要否命题一样,为了满足数据关系的完备性,我们需要负关联规则。另外,如何度量关联规则的不确定性是关联规则挖掘研究中的重要问题之一。而support-confidence模型是关联规则挖掘普遍应用的模型。它采用supp(XOY)和conf(X→Y)来度量关联规则的不确定性。然而,用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。因此,用conf(X→Y)来度量关联规则的不确定性是不够的。第四章基于概率论以及Piatetsky-Shapiro的观点给出了一个能同时挖掘正关联规则和负关联规则的算法,且构建了一个关联规则挖掘模型以度量关联规则的不确定性,同时阐明了该模型是度量关联规则不确定性的有效方法。
其他文献
该文共分三章;主要讨论的是迭代法的收敛性及其在实际中的应用问题.迭代法的研究日益成为解决各种非线性问题的核心,迭代法优劣的选择直接影响到各种非线性问题的结果是否良
该文针对如下的三个问题提出了自己的解决方案.首先,访问控制模型中角色的语义可能并不单一,当访问控制应用系统规模逐渐扩大以后,角色的数目可能成百上千,很难实行高效的管
利用Boltzmann可加性原理,该文还得到了几种周期性加载卸载作用下的应力-应变曲线,说明了粘弹性材料在分数阶意义下应力-应变曲线的滞后特性.该文的结果对实际粘弹 性体受力
在整个补给过程中,补给船自身的液货量变化较大,这将会导致其自身状态受到很大的影响。为了保证补给船能有适度的稳性、强度和浮态,船长往往要根据丰富的经验对货油舱以及压
该文分五章进行论述:第一章简要介绍金融期权的基本理论,包括数学概率基础,金融期权的概念以及定价;第二章介绍实物期权的基本理论,包括实物期权的概念、种类以及与金融期权的
学习外国语种的人都会发现在听、说、读、写四个部分中,写一般是最难突破的一环,即使是外国语专业的高年级学生,作文也不能让人满意。究其原因,主要是文章中许多的汉式英语表
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
有效的教学设计能很大程度提高教学效率,它能加深学生对于课堂所学知识点的理解,能够帮助学生更好地掌握课堂的重点与难点内容。文章以讲授Colour为例,具体说明如何有效的做
该篇博士论文由五章组成.第一章概念了问题产生的历史背景和该文的主要工作.第二章讨论具时滞差分方程的渐近性,通过比较方法,建立了方程的所有解(或有界解)渐近于某个常数充
众所周知,随机微分方程可以更精确的描述实际问题和事物发展的客观规律,所以对随机微分方程理论与应用的研究引发了人们的关注.随着研究的深入,人们将有限维空间中的随机微分方