基于Spark的分布式关联规则算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:nfu54153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,当今社会的信息量正在以爆炸的趋势增长,因此需要对这些大量的数据进行挖掘,为社会生活乃至国家发展找出有价值和有意义的相关知识。于是,产生了数据挖掘这一概念,而且数据挖掘如今已经广泛地应用于我们的日常生活中。数据挖掘这一概念对于当今社会来说并不陌生,它指的就是通过某种挖掘方法,从大规模的信息中发现并提炼出隐含在大规模信息数据中有价值的数据的过程。通过数据挖掘这项技术,人们能够从大量的数据中获得有意义和有用的知识,进而在社会生活中根据这些发现的知识对某些重要的事情做出决定和适当的判断。如今这样呈爆炸式增长的数据量反而给以往的关联规则算法带来了许多问题,比如效率较低、占用大量的存储空间等。因此,许多研究人员提出了分布式并行云计算技术去挖掘大数据中有价值的数据信息。然而为了使数据挖掘的速度得到充分的得以提高,就要用到分布式环境中大量的计算节点。当许多服务器工作在同一网段时,许多不同的任务在同一时间被传输,可用的传输带宽就会受限。无论对于网络内部或外部,这都导致了传输速度变慢,造成严重的传输延迟。综合分析如今分布式环境中数据传输的瓶颈问题以及FP-tree算法及其改进算法,本文采用了一种CSFP-tree算法,该算法在主节点上对数据集进行预处理,即对传统的频繁模式树进行压缩,使之成为一个占用空间更少的树,这样就可以减少数据在主节点和计算节点之间的传输时间。此外,提出了基于Spark分布式环境的关联规则挖掘方法,将预处理后的频繁模式树放到Spark环境中进行分布式并行化的关联规则挖掘,从而进一步提高了挖掘效率。相比于Hadoop,Spark环境是基于内存处理的,更加有利于FP-tree这种迭代算法,挖掘效率更优越。最后通过实验验证了本文提出算法的可行性和有效性,对今后有关于基于Spark的分布式数据挖掘的研究起到了一定的参考价值。
其他文献
基因的表达过程受到多方面的调控,内源基因编码的非编码单链micro RNA(mi RNA)在动植物中的调控作用的重要性已经被广泛认识。本课题组在前期工作中,采用高丰度的cre-MIR1162
社交网络、网络购物与人们生活日益密切,人们通过网络购物占日常购物的比重在逐日增加。商家为了增加网络中销售额开始在社交网络使用博客、微博等方式推广自己的产品,同时人
偏振光导航是一种新型的自主导航方式,其具有不向外辐射能量、抗干扰性强、定向误差不随时间累积等特点。偏振光导航不仅可以与里程计组合组成自主导航系统,也可以与GPS,MIMU
多智能体系统由于其工作效率高、潜在应用领域广泛等优点,受到了越来越多国内外专家学者的关注,针对多智能体系统的研究也已经成为控制研究领域的一个重要分支。而对多智能体
轨迹数据记录了用户移动行为,富含重要的时空信息,具有巨大挖掘价值。轨迹数据正成为各行各业争夺的重要资源,如何充分发挥轨迹数据中蕴含的丰富知识,是数据挖掘研究领域的前
在测控领域中,测试对象复杂、测试参数众多,对测试速度、测试精度要求较高;传统的单机单参数手工测试已不适应生产力的发展,要求能够对被测对象进行自动化测试与控制。为满足
近年来,随着无线局域网研究的深入和移动通信技术的发展,正交频分复用技术凭借其频谱利用率高、系统复杂度低、带宽扩展性强等特点,在4G组网、WLAN中广为使用。随着智能手机
在几十年以前,就已经有人提出了逐次逼近型的模数转换器结构(即SAR ADC),但是近些年人们对它的关注度越来越高。这是因为同其他ADC相比,SAR ADC的芯片面积小,结构简单,模拟模块
通信信号调制分析技术是非合作通信领域的关键技术,在电子侦察、通信对抗、频谱监测等方面有着重要的应用价值。经典的通信信号调制分析研究大多假设环境噪声服从高斯分布,但
轨迹数据对于智慧城市和“互联网+”建设有着重要作用,然而轨迹中包含了大量的个人隐私,对轨迹数据集的发布进行隐私保护刻不容缓。差分隐私作为一种定义规范、理论基础坚实