关联规则算法优化及基于Spark的并行化研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:bobogu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的高速发展,各个行业都产生越来越多的数据,每个行业对这些数据进行分析从中挖掘出重要信息就显得尤为重要。如今关联规则分析被广泛的应用于每个行业中,关联规则技术在数据挖掘领域越来越重要,如何利用关联规则技术挖掘出对用户有价值的信息就变得尤为重要并已成为一个研究热点领域。长期以来Apriori算法就是关联规则算法的一个重要分支,但是经典的Apriori算法仍然存在不足之处,比如:重复扫描事务数据集,产生大量冗余规则等。本文针对Apriori算法存在的问题,提出了基于萤火虫算法来改进Apriori算法的策略,生成新算法YHC-Apriori算法(Firefly algorithm-Apriori),因为萤火虫算法具有自动快速寻优的特点,因此对关联规则挖掘具有筛选规则的作用,使得出的规则更受用户喜欢,从而提升了Apriori算法的效率。另外针对关联规则算法候选项集生成频繁项集时间开销大,提出相关兴趣度概念,提升Apriori算法剪枝阶段的效率使得算法的时间效率得以提升。本文在Apriori算法改进的基础上,为了使Apriori算法在数据爆炸时代能更好的处理大数据,采用基于Spark平台实现了YHC-Apriori算法的并行化。通过在不同数据集不同计算平台不同最小支持度等情况下对本文提出的改进算法YHC-ABS算法和已有的Apriori并行化算法YAFIM进行实验对比,综合评价结果本文提出的改进并行化算法效率更高,另外本文提出的YHC-Apriori算法性能相较于Apriori算法也有大幅提升,证明了本文提出的算法改进策略的有效性。本文将提出的算法应用于胃癌的疾病诊断上,将癌症患者的身体检查各项生理指标检测结果作为挖掘数据,通过关联规则算法的挖掘发现胃癌的几个主要症状之间的关联关系,将得出的结论反馈到医院,辅助医生对病人患病情况进行诊断,进而提升疾病诊断的准确率。
其他文献
创新是经济发展的催化剂,是国家进步的动力源泉。要实现创新型国家建设,需要不断提升区域创新能力。而高校作为我国区域创新体系中的重要一员,其科研活动不仅是人才培养和知
设G是简单图,若我们将G的顶点集划分成两个互不相交的顶点集S,S,则称(S,S)为G的一个二部划分。设(S,S)为G的一个二部划分,若|| S |-| S ||≤1,则称(S,S)为G的二部平衡划分。本篇学位论文主要讨论带有边数条件限制的平衡二部划分问题。给定顶点子集S,我们用e(S)表示S导出子图的边数。在文献[4]中,Bollobas和Scott提出猜想:如果简单图G有m条边且最小度大于等于2
对单个重子谱信息的掌握,有助于加深对非微扰量子色动力学的理解,因为重子内部的重夸克给了我们一个“味道标签”来方便地去探索夸克相互作用的本质。与类氢原子类似,含有一
绝大多数盲人在无人陪伴的情况下缺乏指导,很难单独出门。盲道作为城市重要的基础设施,并没有发挥其应有的作用。因此,如何有效地利用盲道信息来帮助盲人出行成为学者们关注
随着信息技术的迅速发展和普及,数据资源以指数级别的速度增加,这使得用户在面对众多的网络资源时,反而无法高效选择出对自己有用的信息,进而出现信息超载问题。于是推荐系统应运而生,它依据用户的历史数据,通过用户的兴趣爱好来进行独特的个性化分析、计算,从而为用户提供有用的信息。现今推荐系统已广泛应用到社交网站,电子商务,电子学习,电影推荐和旅游等诸多领域。随着对推荐系统的深入研究,相应的研究难题也显露出来
目的:采用天然高分子细菌纤维素(Bacterialcellulose,BC)材料制备小口径(内径<6mm)人工血管,并对BC材料表面改性以促进内皮细胞黏附,提高人工血管的抗血栓能力及植入体内后的远期通畅率。方法:在自制的血管模具中采用渗氧单管法培养木葡糖醋杆菌用于制备BC材料的小口径人工血管,通过游标卡尺测定BC血管的厚度及直径。首先,使用2,2,6,6-四甲基哌啶氧化物自由基(TEMPO)
婚配制度一直是动物生态研究中的核心问题之一。婚配制度还可以为濒危动物的保护和有害动物的不育控制提供指导,具有实用价值。因此婚配制度的研究一直受到国内外学者的关注
正误样例学习是把正确样例与错误样例组合在一起进行学习,正确样例为建构正确概念与程序提供了范式,错误样例为纠正错误认识与理解提供了支持,通过对比正确样例与错误样例,学生更关注样例的内在逻辑与关键步骤。随着研究者对正误样例学习的研究不断深入,本研究从学习迁移的认知策略迁移理论出发,将正误样例学习与反思性学习相结合,设计了反思型正误样例,并在此基础上,引入支架式反馈,设计了有反馈的反思型正误样例。本研究
近年来,随着人工智能、传感器技术、无线通信技术的发展,情景感知、行为识别、新型人机交互等技术得到了更为广泛的关注和研究。作为无线感知的重要组成部分,身份识别以人的
森林群落的稳定性研究主要是针对天然林进行,对人工林研究较少,人工林稳定性与林地保持生产力和维持木材经营质量有重大关系,通过研究福建省将乐县国有林场的杉木人工林的稳