基于多又树和Spark的改进Apriori算法

来源 :信息技术 | 被引量 : 0次 | 上传用户:hhww541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中基于Spark和多叉树对传统Apriori算法进行改进,将原始事物数据库转换为布尔矩阵,切割成多个分区数据库后交由Spark的各个Worker节点处理,以多叉树的形式存储中间结果,最后交由主节点进行合并,得到全局频繁项集.将基于Spark实现的Apriori算法同Ha doop环境下的Apriori算法进行性能对比,发现在数据量相同的情况下基于Spark的Apriori算法较基于Hadoop的Apriori算法执行时间减少了67%以上,采用多叉树存储中间结果后,算法执行时间在原来的基础上减少了44%以上.文中实验证明了Spark比Hadoop更适用于Apriori这种以迭代搜索方式执行的算法,且采用多叉树存储中间结果可有效地提高算法执行效率.“,”This paper presents an improved Apriori algorithm based on Spark framework and multi-tree.First, the original transaction database is converted to boolean martrix and divided subsets.Then partition multi-trees are generated by the worker nodes of Spark, finally, master node generates the global multi-tree by merging partition multi-trees.Compared with Hadoop framework, Spark decreases the algorithm executing time by more than 67%.By saving the temporary result into multi-tree, the time-consuming is at least decreased by 44%.The experiment indicates that Spark and multi-tree can effectively improve the performance of Apriori algorithm.
其他文献
对郴州、衡阳电网220 kV/110kV/35 kV电磁环进行理论计算,确定郴衡电磁环能够合环操作.
期刊
以微型往复式电动锯锯切机构为研究对象,建立了运动学和动力学模型,该模型计入了运动副摩擦、各杆的实际质量及滑块的具体结构,利用数值计算方法进行了计算机模拟.计算结果表
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
针对机械工厂的设备管理提出了微机辅助设备管理软件的设计思路,给出了软件系统的程序框图,阐述了该系统的功能特点.经工厂运行,该系统实现了对设备管理各项数据的动态控制,
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
(一)rn同方二字源于()“儒有合,志同方”句.方:道也.rn清华大学有同方部.那是志同道合者相聚的地方.rn清华大学有同方公司,那是志同道合者创业的地方.rn在同方创业的人大都是
通过技能大赛来引领教研推广至专业教育教学,而专业教育教学理念的构建又促进技能训练及大赛成果。因此,职业院校的技能大赛已经成为培养并选拔高水平技能型人才的一个非常重
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥