数据挖掘中关联规则的研究及应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:fternally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,因此,关联规则挖掘的研究和应用已经得到了相关领域里学者的极大关注,并取得了不少的研究成果。关联规则的发现可以分成两个步骤:首先发现所有的频繁项集,然后用这些频繁项集生成强关联规则。Apriori算法是经典的频繁项目集生成算法,在数据挖掘界起着里程碑的作用,它的基本思想是利用一个层次顺序搜索的迭代方法来生成频繁项集,即利用k—项集来生成(k+1)一项集,用候选项集Ck找频繁项集Lk。首先,找出频繁1—项集的集合,记作L1,L1用于找频繁2—项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k—项集。找每个Lk需要一次数据库扫描。一旦找出所有的频繁项集,就根据最小置信度来产生强关联规则。但是,在第k次循环中产生的候选k—项集的集合Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能非常大的交易数据库。而用于关联规则挖掘的事务数据库的规模通常是非常大的,这样一来,开销就非常大。而在有限的内存容量下,系统I/O负载相当大,每次扫描数据库的时间就会很长,这样,其效率就非常低。Apriori算法涉及的数据对象包括事务集D,候选集C,频繁集L。算法涉及的操作包括:扫描事务集计算支持度,Lk-1与Lk-1连接生成Ck,扫描Lk-1来对Ck进行剪枝。可见,对Apriori算法的优化方向包括缩减三个数据集和提高三个操作的执行效率。在对Apriori算法进行分析时将会发现:随着k的增大,不仅k—项目集的个数减小,而且包含任意k—项目集的事务集也更少。所以,如果我们在计算各个候选项集的支持频度时,随着k的增大,我们也逐步缩小用于扫描的事务数,这样一来就可以大大节省输入输出开支。另外,Apriori算法利用Apriori性质大大压缩了搜索空间,提高频繁项集逐层产生的效率。能否采用一种方法使得在扫描的过程中Ck的规模逐步减小,以提高算法的效率?基于以上的分析,本文对Apriori算法进行了改进(GBARM算法),该算法能够逐步缩小用于扫描的事务数,并同时逐步减小Ck的规模,使得算法的性能大大提高。最后,对关联规则挖掘算法的应用领域给出了总结,并指明了进一步研究的方向。
其他文献
计算机网络是把分布在不同地理区域的计算机,通过通信线路互连成一个规模大、功能强的网络系统,从而可以方便的互相传递信息,共享硬件、软件、数据信息资源。家庭宽带接入业
近年来,我国进入人口老龄化迅速发展时期,老年人口呈现总量扩张、增量提速的发展态势。面对日益加剧的人口老龄化现象,长远的计划安排和积极的战略应对是必不可少的。在老年人中,听力损失患病率非常高,是仅次于关节炎和高血压的常见慢性疾病,并随着年龄增长发病率逐渐升高。因此在积极应对人口老龄化,大力发展老龄服务事业和产业的过程中,老年人的听力损失是一项值得引起我们重点关注的问题。听觉器官老化属于自然规律,目前
本课题以协同工作平台服务系统(CWPS)的研究开发为背景,以分布式对象计算技术思想为指导,结合面向对象/面向构件的方法论,提出了共享接口网关软件模型。运用设计模式等软件体
壳的出现,使软件保护进入了一个新的时代。加壳技术已广泛应用于软件保护,在软件逆向分析、软件解密和恶意软件检测等过程中,软件脱壳已成为十分重要的环节之一。软件壳检测
视频监视系统是安全防范系统的重要组成部分,它是一种防范能力以及实用性都很强的综合系统。然而近年来,随着嵌入式技术、多媒体技术、计算机网络等的快速发展,视频监视系统
2G移动网络为了实现交换与控制的分离,引入移动智能网作为增值业务的开发与运行平台,而3G移动网络为了提供更为开放的业务开发模式,引入应用服务器作为主要的电信业务运行平
调度问题是工农业生产、国防、科研、交通运输以及各种服务行业中普遍遇到的问题。调度问题要研究的主要内容就是根据产品制造需求合理分配产品制造资源,进而达到合理利用产品
对连续语音语料库进行切分或标注是整个连续语音识别系统的基础和前提,而且也是一项非常重要的工作,因为它对语料库的充分利用有重要作用,对连续语音识别系统的性能有重要影
汉字识别系统是将图像数据中的文字信息提取出来的一种系统。根据图像数据的种类,汉字识别系统有着各种各样广泛的应用。比如银行单据识别,电子图书馆,邮政编码自动分类,手写
传统上,发现药物过程主要包括三个阶段:发现、临床前阶段和临床开发。整个过程费时昂贵,却往往效率低下。药物重定位正是在这种情况下提出来的,其目标是通过识别和使用已知的药物,来治疗目标疾病以外的其他疾病。以往的药物重定位方法主要是基于药物基因疾病的关系,而丢弃了许多重要的信息,为了解决这个问题,本文集成各种数据,从多角度推断药物作用,提出了两种新的方法,来解决药物重定位问题。第一种方法关注表型数据,提