基于Spark的关联规则算法研究与实现

被引量 : 5次 | 上传用户:jhq0327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从数据库(集)中发掘潜在知识或者模式的一种过程,而关联规则挖掘则一直以来都是数据挖掘领域的热点研究话题,在国内外都有着非常广泛的研究。关联规则挖掘旨在从数据中发掘隐藏于不同对象或变量间的关联关系,该过程一般分成频繁项集挖掘和生成规则的两个阶段,而当中主要是频繁项集挖掘阶段耗费大量的时间和空间资源,一度成为关联规则挖掘的性能提升的瓶颈。因此继Agrawal提出Apriori算法后,就有学者不断提出新的频繁项集挖掘算法或是在已有的算法基础上做出改进和优化,一度成果卓著。然而随着大数据时代的到来,数据规模成指数级别的增长,以往的单机、串行的算法已经不再能胜任了。所幸,近年来诞生了以Hadoop、Spark为代表的优秀的分布式计算平台,其中Spark又在迭代计算方面远胜于Hadoop,为关联规则挖掘算法的性能突破创造了新的契机。本文首先从对已有的关联规则挖掘算法的研究出发,总结并整合已有关联规则挖掘算法的改进策略和并行策略,针对Apriori、FP-growth、Eclat这三种经典关联规则挖掘算法做出改进、优化并基于Spark平台进行并行化实现,同时与对应的Hadoop版的实现算法进行充分的性能对比。其次,本文在传统的关联规则挖掘算法基础上进一步研究高效用项集挖掘问题,并基于Spark平台实现并行的高效用项集挖掘算法。最后考虑到数据规模更大的情况下,计算资源有限,可能单独的并行也都无法求得高效用项集,提出一种基于抽样策略的高效用项集挖掘算法。本文对关联规则挖掘算法以及其并行化和Spark并行计算平台进行了充分的研究,通过大量的实验和案例分析验证了所提方法的合理性。
其他文献
纪录片《创新中国》以展现我国近年来最新的科技成就和创新实践为诉求,以信息、能源、制造、生命、空海、潮起等方面的突破为脉络,宏观视野与微观叙事相融合,完美展现了我国
利用超音速火焰喷涂技术,在不同粘结层上制备了NiCr-Cr3C2金属-陶瓷梯度涂层,通过对梯度涂层的粘结层设计、金属-陶瓷层陶瓷相含量、喷涂参数以及退火工艺的调整,开发出实用
<正>王羲之《适得书帖》,文曰:"适得书,知足下问。吾欲中冷,甚愦愦,向宅上静佳眠,都不知足下来门,甚无意,恨不暂面。王羲之。"此帖释文歧义主要是两个字,即"冷"字一释"治","
非物质文化遗产是人类在社会发展过程中不断积累下来的宝贵财富,其作为中华文化的组成部分具有重要文化价值。随着社会的发展变迁,特别是在信息网络飞速发展的今天,互联网资源优
论文从信息经济学的角度探讨信息不对称条件下的信贷风险的形成机理,及信贷风险管理的制度安排与方法。首先,论文对信贷活动中信息不对称所产生的逆向选择与道德风险及山此产生
30CrMnSiNi2A钢在我国工业生产的很多领域都有大量应用,除了强度性能非常突出之外其综合性能也很优异。30CrMnSiNi2A钢属于低合金超高强度钢,它是在改进中碳调质钢30CrMnSiA
随着社会的飞速发展,地铁逐渐成为大中城市的标志。在城市建设过程中,经常出现新建工程近接既有地铁的情况,影响地铁的安全运营。为了确保地铁的安全性,施工时往往采用各种基
在高校学生社会实践内容不断丰富,形式不断拓展,成绩日益凸显的新形势下,科学开展社会实践实效性评价,增强实践育人成效,已经成为高校思想政治教育工作的重要议题。以过程评
Sn-Bi系无铅钎料的熔点较低(共晶成分熔点为139℃),能够降低电子元器件及基板在封装过程中的热伤害,在低温无铅钎焊领域具有重要的应用价值。但是Sn-58Bi钎料时效组织稳定性