Spark环境下增量式Apriori算法的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:yangyongxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度不断提升,各种形式的电子数据积累越来越多,且产生速度不断加快,传统的数据库系统难以快速高效地从这些超大规模的数据中挖掘有效信息。频繁项集挖掘是一个典型且重要的数据挖掘问题,它可以被广泛应用于电子商务、文本分类、生物信息学等领域。Apriori算法是一个经典的频繁项集挖掘算法,可以有效的处理中小规模的数据集。  但是,当数据规模不断增大时,Apriori算法将消耗大量的计算和存储资源。另一方面,对频繁项集的应用,通常具有时效性。即频繁项集的计算时间越长,最终结果所能体现的价值越小。当有新数据不断被采集,频繁项集结果也因此需要更新。如果在数据集发生变化后,采用传统的Apriori算法对新数据集进行重新处理,则将消耗大量计算时间,使计算成本提高,数据价值降低。  网络和分布式技术的不断成熟,使得处理海量数据逐渐变得高效。Spark即是一个通用的分布式数据处理平台,它借助大量商用计算机聚合的计算能力和存储能力,可以对海量数据进行快速处理。  另一方面,随着存储技术的进步,同时代商用计算机的存储成本相对计算成本越来越低,因此“空间换时间”的思想可以更好的运用在数据处理中,增量计算即是研究如何利用历史结果加快数据处理的一个研究领域。  本文通过研究Apriori算法,设计并实现了一种在Spark平台上的频繁项集挖掘及增量式更新算法。它借助Spark平台的并行处理能力,可以有效解决传统Apriori算法的数据规模问题。并且,通过设计合理的数据存取策略,可以实现频繁项集增量更新处理。最后,通过设计并实现一个自动化的数据变化感知模块,实现了数据集变化的自动感知及频繁项集自动更新的功能。实验证明,Spark平台上实现的频繁项集增量更新算法,不仅可以有效解决Apriori算法的数据规模问题,还能更高效地处理动态变化的数据集。
其他文献
在这个信息爆炸的时代,Internet带给人们丰富的资讯,提供方便的同时也推动了经济的发展。但是许多非法组织和个人通过传播计算机病毒来窃取信息并从中获取经济利益,给信息和
由于云计算提供的服务具有廉价性、灵活性和易于扩展等优点,越来越多的企业和个人选择租用基础设施即服务(IaaS)来支撑自己的业务。作为其他云服务的基石,IaaS在云计算中起着
随着Android操作系统在智能终端的爆发式增长以及Android对大屏幕尺寸的支持,用户对Android操作系统的操作体验要求日益升高。国内外的开发人员针对平板设备和PC电脑设计开发
随着互联网技术的快速发展,SNS(Social Network Service)呈现出多样化,渗入到人们生活中游戏、阅读、音乐等领域。然而,这些SNS服务虽然业务形式不同,但是其中的用户关系形式
格密码系统由研究人员在96年提出。由于它自身的优良性质:能抵御量子攻击,格上算法且困难问题容易理解,引起了研究人员的广泛关注。研究人员成功的用格解决了全同态加密和签名
高频数据项的挖掘问题属于不确定数据流处理1范畴的算法问题。在该领域的算法研究主要用于数据库Iceberg Query、服务器DOS攻击监测、搜索引擎热门搜索统计和社交网络热门话
云计算通过虚拟化和聚合等技术将大量服务器的计算力和存储资源整合在一起,形成一个庞大的资源池,并以服务的形式将计算力和存储能力对外输出。为了保证云计算平台所提供服务的
作者在钻研计算机应用与控制技术、计算机网络与通讯原理及其现代微控制器技术的基础上,对新型、高档、高性能、高速度面向21世纪的嵌入式(Embedded)单片机进行了新的探索和
当前,承受精神压力的人越来越多,心理健康问题已成为人类面临的一项重大挑战。精神压力识别可以帮助人们及时采取有效措施,缓解精神压力,保护心理健康,具有十分重要的研究意义。过
系统虚拟化技术是当前学术界与产业界广泛研究与探讨的一项信息技术,由于其在资源管理、服务器整合、绿色节能、安全隔离等方面的优秀特性,在当前日益兴起的大型数据中心与云