基于Spark的近邻传播聚类及其增量算法的研究与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:studentOfJXUFE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机功能的增强,人们利用手机不仅可以发送邮件,浏览网页还可以网上支付,手机的部分功能已经逐步取代电脑。手机变成了我们日常生活中不可缺少的一部分,人们对手机的依赖性越来越强,手机安全问题也变得越来越重要。手机病毒数量不断增长,感染方式多种多样,使得安全防护难度越来越大,传统杀毒软件病毒库升级的方式已经不能满足要求。本文利用聚类挖掘算法,结合Spark分布式计算平台对病毒数据进行分析建模,提高手机病毒挖掘的效率。本文主要通过近邻传播聚类算法对手机病毒进行聚类分析,同时结合Spark分布式计算法平台,实现数据的分布式处理和增量处理。主要工作包括:1、通过调研分析聚类算法和分布式并行技术的应用现状以及手机病毒聚类挖掘中存在的一些问题,结合近邻传播聚类算法和大数据量处理的特点,设计并实现了基于Spark的分布式近邻传播聚类算法,改进算法的存储方式,通过分布式图处理框架Spark GraphX对数据进行并行化处理,适合大数量计算,提高挖掘效率;2、针对动态数据的聚类,实现了基于Spark的增量近邻传播聚类算法,通过将新增数据和初始建模数据进行比较,利用最近邻思想对新增数据进行赋值,同时对分布式图进行扩充,并迭代更新聚类模型,. 3、完成分布式手机病毒聚类挖掘子系统的架构设计,包括数据库设计,数据预处理以及建模模块和增量建模模块等,完成系统测试和算法的性能测试,经过实验对比,验证了两种算法在手机病毒挖掘中的可行性,相比于K-means算法能够提高聚类算法的准确率,并且能够更好的区分相似病毒。通过以上几方面的工作,设计并实现了基于Spark的手机病毒聚类挖掘子系统,能够对手机病毒数据进行并行化处理,不需要人工指定聚类个数和聚类中心,提高系统的灵活性和实效性,同时可以根据算法的特点结合其他聚类算法运用于不同的应用场景,为手机病毒数据的聚类挖掘提供新的解决方案,因此,本系统在手机病毒挖掘领域有重要的应用前景。
其他文献
"三个代表"重要思想是江泽民总书记面向新世纪,站在历史高度,对各级党组织和广大党员干部提出的新要求,它对党和国家的各项工作都具有十分重要的现实指导意义.以"三个代表"为
目的:肾小管间质纤维化(tubulointerstitial fibrosis,TIF)几乎是所有慢性肾病发展到终末期肾病的主要病理基础之一。近年来大量研究表明,小管间质纤维化与肾功能的损害密切
工艺路线优化对保证零件加工精度、提高劳动生产率和降低制造成本有重要作用。在零件加工方法和工序内容确定后,工艺路线的多样性主要体现在基准和加工顺序的可变性上,传统的
《礼记》中的《乐记》篇历来被视为中国古代美学的经典性文献。全文围绕“乐(音乐)”这一主题,展开了多方面的讨论。在《乐记》文本的讨论当中,“乐”不仅仅作为一个简单的艺
审计委员会制度作为英美法系公司治理的重要组成部分,是公司治理结构中一种重要的制度安排。从西方国家的上市公司治理经验来看,审计委员会制度的主要作用在于监督公司财务信