基于Spark平台的离群数据并行挖掘算法

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:zhyj747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据技术的快速发展,现有的离群挖掘算法效率可能显著下降甚至不适用。Spark内存计算可以有效地降低I/O成本,并能提高数据分析和处理的效率。使用Spark内存计算平台,提出了一种离群数据并行挖掘算法,目的是在Spark这样的大数据平台上对传统离群挖掘算法进行并行化,从而提高性能。最后以UCI数据集作为实验数据集对算法进行了验证,实验结果表明,基于Spark平台的离群数据并行挖掘算法具有良好的可伸缩性和可扩展性。
其他文献
提出并成功研制了一种具有功能复用的新型的多功能光隔离器结构,对其进行了传输特性性能理论分析,分析表明,该器件具有与单尾纤光隔离器相同的低插入损耗,高隔离度等特性,实
2010年第1期《学习与研究》刊发温家宝总理在纪念国务院参事室成立60周年座谈会上的讲话指出,要提倡独立思考、敢讲真话的精神。曾任中央文史研究馆副馆长的陈寅恪先生说过,学
根据光纤的模式匹配理论计算了给定条件下光纤探头的模式匹配半径,以此匹配半径为基础分析了激发光在锥型光纤探头中的光线传输轨迹.结果表明,在此条件下如不对光纤探头的耦合光
党的十七届三中全会《决定》,为推进新形势下的农村改革发展进一步指明了方向。学习贯彻《决定》,认真总结农村改革30年的经验,进一步深化改革,推进现代农业发展和社会主义新农村
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较
去年我们纪念了改革开放30周年,今年又迎来了新中国成立60周年。回顾这60年不平凡的历程,最大的成就,就是我们党领导全国各族人民不仅实现了从新民主主义到社会主义的转变,而且在
《中国青年报》2011年11月8日发表邓清波的文章指出,公职人员的行为对社会群体有着很强的示范作用,因此,对公务员有更高的道德要求,无可厚非。“官德”建设确实与官员的个人道德
模具热处理就是为了发挥模具材料的潜力,提高模具的使用性能。模具的性能必须满足:高的强度(包括高温强度,抗冷热疲劳性能)高的硬度(耐磨性能)和高的韧性,并且还要求有良好的
利用谐振腔的往返矩阵理论以及谐振腔的稳定性条件研究了锁模激光器的稳定区与激光腔内光功率的关系,从而得出在高脉冲功率下自缩短效应对Kerr被动锁模飞秒激光器的稳定区的
基于有限差分方法,提出了一种新的PSD RC网络传输线模型模拟算法.利用该算法,得到了一维PSD在不同光信号激励下,从开始响应到进入稳态后的各个阶段的精确数值解.揭示了PSD电