加权关联规则挖掘算法的研究与改进

来源 :广西大学 | 被引量 : 0次 | 上传用户:warewell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术快速发展的时代,各种企业数据也在爆炸式的增长,如何准确、高效地从中发现有潜在价值的信息是人们一直关注的问题。数据挖掘作为一种数据分析工具,用于在海量数据中寻找未知的、创新的、潜在有用的、能够最终被理解的知识或模式。关联规则是数据挖掘研究领域的一个主要分支。Apriori算法作为挖掘规则的经典算法,主要解决数据间的关联问题和模式的挖掘。但Apriori算法及现有改进算法视数据库中数据项“平等一致”,不符合实际情况。为了更合理地挖掘规则,人们采用某种策略对数据项赋予权值,并且满足了应用需求。因此对加权关联规则挖掘算法的研究是非常有意义的。但现有加权算法存在一些问题:数据项权值设置不合理、多次扫描数据库、产生大量候选项集、连接和剪枝过程低效、串行扫描数据库时间较长等。本文在广泛研究现有加权算法的基础上,针对时间与空间效率问题进行了优化,提出了两种改进算法,并通过数据实例进行了仿真实验。其主要研究内容及创新点如下:一、提出了一种基于向量的概率加权关联规则挖掘算法。该算法采用空间换时间思路减少数据库扫描次数;以数据项在数据库中出现概率作为其权值,提升高频项的重要性;提出新的剪枝策略,减少候选项目集产生。最后采用一组数据实例与其它算法进行比较,新算法具有较好的性能。二、提出了一种基于划分的加权关联规则挖掘算法。该算法引用划分与并行思想,首先划分数据库并转换为二进制形式进行并行挖掘;其次引用一种哈希函数以减少候选二项集产生;最后以相同前缀划分频繁项集,减少连接次数。在算法最后合并所有局部加权关联规则。数据实验结果表明,新算法在性能上有较大提高。论文在最后总结了本次开展的所有研究工作,并提出了后续研究内容以及对未来的展望。
其他文献
随着互联网与电子商务的快速发展,网络信息与资源正以空前的速度迅猛增长,信息过载问题越来越严重。如何帮助用户快速准确地发现其需要的信息成为大数据时代的热点问题之一。
随着互联网技术的快速发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,信息的生产者和消费者都遇到了极大的挑战:信息生产者渴望自己生产的信息脱颖而出,受到
现实世界中存在着诸多复杂的网络结构,为了揭示隐藏在复杂结构中有价值的信息,网络结构图的思想引起了研究人员的注意。图是网络结构建模的方法,现实生活中很多实体都可以抽象为
目前中文微博是各种社交网络和社会媒体交流的一种重要方式,是web2.0时代的最典型的应用。2009年8月,新浪微博正式上线,并迅速发展成为中国的主流微博,它通过即时通迅方式发布长
快速代理移动IPv6是代理移动IPv6标准协议的扩展,它借鉴了快速移动IPv6切换方案对标准移动IPv6切换方案的改进思想,采用预先切换的方法,让移动节点在链路层切换完成之前便进
随着市场经济的发达程度不断提高,各地之间的物质交换活动日益频繁,物流行业得到了快速的发展。作为社会化生产的重要产物,物流将物质的生产者和消费者紧密地联系在一起,从而使物
随着云计算技术的不断发展,SaaS(Software as service)作为云计算的三种服务模式之一,正逐渐被人们关注和接受。SaaS凭借其按需租用、不需维护、便于扩展等优势改变了用户使用
多租户SaaS(软件即服务,Software as a service)应用以其按需定制、按需付费、无需维护等特征,逐渐成为云计算时代下主要的软件服务模式。所谓多租户SaaS应用就是单实例多租
随着人们构建的本体的增多以及对本体研究的深入和实际应用需求的增加,本体的应用面临着一些新的问题。一方面是如何准确计算本体中概念之间的相似度;另一方面是如何解决异构
1999年,建立在物品编码、RFID (Radio Frequency IDentification)技术和互联网的基础上,美国Auto-ID中心首先提出了物联网的概念。当RFID与互联网相结合时,一场影响深远的革