事务间关联规则的有效挖掘

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:sheng45724575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
世界进入信息时代,在各个领域存在大量数据。人们迫切需要将它们转化成有用的信息和知识,以应用于商务管理、生产控制和预测等方面。数据挖掘和知识发现作为从海量数据中提取信息的一种技术,已经成为当前一个具有重要理论和应用价值的研究课题。在目前学术界引起了广泛关注。本文在充分分析数据挖掘的基本特点和相关技术的基础上,探讨了事务间关联规则挖掘的理论及其在预测中的应用,并对两个算法进行了改进和比较。 首先,阐述了数据挖掘技术数十年的发展概况,对关联规则挖掘的概念作了较为系统的描述;关联规则数十年来的发展迅速,已经被扩展到不同的领域。对于这一方面的研究情况,本文也给了具体详尽的描述和总结,并且介绍了关联规则挖掘中的几个主要算法。 其次,介绍了EH-Apriori算法:使用传统的Apriori算法发现事务间频繁项集。为了进一步提高效率,引用哈希技术。即:事务间所有可能的候选2-项集都被作到一个哈希表里。组成哈希表的每个桶的数目代表在这个桶里有多少项集。哈希表被用于减少事务间候选2-项集的数目。如果在哈希表里对应得桶值小于minsup,就撤去一个候选2-项集。称这个算法为Extended Hash Apriori,简称EH-Apriori。 最后,详细探讨了事务间关联规则的挖掘算法。在本论文中,将打破事务的壁垒,扩展关联规则挖掘的范围,从传统的单维事务内关联扩展到多维事务间关联。事务间关联描述了不同事务之间的关联关系,有关联的项属于不同的事务。然而,在相同的规则里,这样一个事务间关联能被扩展出更多性能的关联,以致多维事务间关联也能被定义和发现。挖掘事务间关联在有效率的过程方面比挖掘事物内关联提出了更多的挑战。因为潜在的关联规则数目在事务的界限被打破后,变得特别的大。在介绍了事务间关联规则的概念后,定义它的度量:支持度和置信度,且提出一个有效的算法:FITI(First Intra Then Inter),它采用了两个主要思想:1)一个事务间频繁项集仅仅包含它对应的事务内的副本的频繁项集;2)在事务内频繁项集之间建立一个特殊的数据结构来有效的挖掘事务间频繁项集。拿FITI与EH-Apriori比较,FITI是更好的算法,它更进一步地伸展了事务间挖掘的方法且它的实用性在论文里也被讨论。
其他文献
工作流是指整体或部分的业务过程在软硬件环境支持下的全自动或半自动化。论文研究以作者参与开发的GOA系统为背景,首先用“5C”观念阐述了办公自动化系统的概念和内涵,并从
  本文针对电子政务的安全威胁和安全功能需求,利用目前比较成熟的PKI技术将各种安全认证服务进行合理部署,为电子政务统一认证体系提供了一个框架性的解决方案,同时结合电子
随着计算机图形学、虚拟现实以及三维交互设计等技术的不断发展及广泛应用,三维实时绘制技术逐渐成为计算机图形学的研究热点。虽然图形绘制技术经过了几十年的发展,取得了长足
网络协议是进行网络通信的规则和基础。在防火墙上运行着的各种网络协议存在一些漏洞,于是被选作攻击的切入点,大多数防火墙的抗攻击能力也因此处于被动地位。所以需要有完善的
近几年来,全球盲人人口增长较快,中国是全世界盲人数目最多的国家之一。由于视觉障碍,出行成为了盲人不得不面对的巨大难题。随着盲人人口的不断增长,社会给予了盲人越来越多的关
自20世纪90年代以来,随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术在不断的发展,并在实际应用中发挥了巨大作用。使用数据仓库所产生的巨大
由薛锦云教授在多项国家级课题的资助下,创造性地提出了一种简单实用的算法设计和能证明的形式化方法—PAR方法,该方法含算法设计语Radl,抽象程序设计语言Apla语言和相关程序
本文立足于NGOSS来研究电信行业的BPM以及如何采用XML技术加以实现的问题。XML作为一种分布式应用环境下的结构化数据描述语言,已被业界广泛接受和采用。在众多基于XML的BPM技
随着计算机硬件、软件的迅速发展,网络的广泛使用,大量的应用需要跨网段、跨平台地进行协同工作,传统的C/S体系结构暴露出许多问题:客户端和服务器端负担过重、系统拓展性差
本文提出一个数据库管理系统,称作TERMS(TERtiary data Management System),TERMS系统扩展商业数据库管理系统的功能,使其可以管理存储在第三级存储设备里面的数据.TERMS系统