Spark环境下增量式Apriori算法的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户：yangyongxf

【摘要】

：

随着社会信息化程度不断提升，各种形式的电子数据积累越来越多，且产生速度不断加快，传统的数据库系统难以快速高效地从这些超大规模的数据中挖掘有效信息。频繁项集挖掘是一个典

【作者】

：

左闯

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2016年期

【关键词】

：

数据挖掘频繁项集增量更新算法分布式数据处理平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化程度不断提升，各种形式的电子数据积累越来越多，且产生速度不断加快，传统的数据库系统难以快速高效地从这些超大规模的数据中挖掘有效信息。频繁项集挖掘是一个典型且重要的数据挖掘问题，它可以被广泛应用于电子商务、文本分类、生物信息学等领域。Apriori算法是一个经典的频繁项集挖掘算法，可以有效的处理中小规模的数据集。　　但是，当数据规模不断增大时，Apriori算法将消耗大量的计算和存储资源。另一方面，对频繁项集的应用，通常具有时效性。即频繁项集的计算时间越长，最终结果所能体现的价值越小。当有新数据不断被采集，频繁项集结果也因此需要更新。如果在数据集发生变化后，采用传统的Apriori算法对新数据集进行重新处理，则将消耗大量计算时间，使计算成本提高，数据价值降低。　　网络和分布式技术的不断成熟，使得处理海量数据逐渐变得高效。Spark即是一个通用的分布式数据处理平台，它借助大量商用计算机聚合的计算能力和存储能力，可以对海量数据进行快速处理。　　另一方面，随着存储技术的进步，同时代商用计算机的存储成本相对计算成本越来越低，因此“空间换时间”的思想可以更好的运用在数据处理中，增量计算即是研究如何利用历史结果加快数据处理的一个研究领域。　　本文通过研究Apriori算法，设计并实现了一种在Spark平台上的频繁项集挖掘及增量式更新算法。它借助Spark平台的并行处理能力，可以有效解决传统Apriori算法的数据规模问题。并且，通过设计合理的数据存取策略，可以实现频繁项集增量更新处理。最后，通过设计并实现一个自动化的数据变化感知模块，实现了数据集变化的自动感知及频繁项集自动更新的功能。实验证明，Spark平台上实现的频繁项集增量更新算法，不仅可以有效解决Apriori算法的数据规模问题，还能更高效地处理动态变化的数据集。

其他文献

基于分类的未知病毒检测技术研究与实现

在这个信息爆炸的时代,Internet带给人们丰富的资讯,提供方便的同时也推动了经济的发展。但是许多非法组织和个人通过传播计算机病毒来窃取信息并从中获取经济利益,给信息和

学位

未知病毒检测K均值聚类PE文件静态信息

基于微粒群算法的混合云任务调度研究

由于云计算提供的服务具有廉价性、灵活性和易于扩展等优点,越来越多的企业和个人选择租用基础设施即服务(IaaS)来支撑自己的业务。作为其他云服务的基石,IaaS在云计算中起着

学位

IaaS云任务调度混合云粒子群算法自适应学习

基于AndroiD-x86操作系统的多窗口显示研究

随着Android操作系统在智能终端的爆发式增长以及Android对大屏幕尺寸的支持，用户对Android操作系统的操作体验要求日益升高。国内外的开发人员针对平板设备和PC电脑设计开发

学位

Android-x86操作系统开源系统多窗口显示源代码

彩印SNS用户亲密度模型的设计与实现

随着互联网技术的快速发展,SNS(Social Network Service)呈现出多样化,渗入到人们生活中游戏、阅读、音乐等领域。然而,这些SNS服务虽然业务形式不同,但是其中的用户关系形式

学位

SNS彩印用户亲密度数据挖掘

基于格的公钥密码系统的研究

格密码系统由研究人员在96年提出。由于它自身的优良性质:能抵御量子攻击，格上算法且困难问题容易理解，引起了研究人员的广泛关注。研究人员成功的用格解决了全同态加密和签名

学位

格密码公钥密码系统身份加密属性加密

高频数据项统计新算法及其在中文信息处理中的应用

高频数据项的挖掘问题属于不确定数据流处理1范畴的算法问题。在该领域的算法研究主要用于数据库Iceberg Query、服务器DOS攻击监测、搜索引擎热门搜索统计和社交网络热门话

学位

高频数据项频繁项瓦片表算法热门话题搜索热点挖掘中文信息处理

基于相空间的云集群监控系统

云计算通过虚拟化和聚合等技术将大量服务器的计算力和存储资源整合在一起，形成一个庞大的资源池，并以服务的形式将计算力和存储能力对外输出。为了保证云计算平台所提供服务的

学位

云集群监控系统相空间宏观监控存储资源云计算技术

现代微控制器的开发与应用设计研究

作者在钻研计算机应用与控制技术、计算机网络与通讯原理及其现代微控制器技术的基础上,对新型、高档、高性能、高速度面向21世纪的嵌入式(Embedded)单片机进行了新的探索和

学位

嵌入式微控制器在线仿真器编译器实时控制

基于生理传感器的精神压力识别关键技术研究

当前，承受精神压力的人越来越多，心理健康问题已成为人类面临的一项重大挑战。精神压力识别可以帮助人们及时采取有效措施，缓解精神压力，保护心理健康，具有十分重要的研究意义。过

学位

生理传感器精神压力识别特征选择信息融合组合融合分析

面向电信业务的Xen虚拟机迁移的研究及优化

系统虚拟化技术是当前学术界与产业界广泛研究与探讨的一项信息技术,由于其在资源管理、服务器整合、绿色节能、安全隔离等方面的优秀特性,在当前日益兴起的大型数据中心与云

学位

虚拟化Xen电信业务虚拟机迁移

Spark环境下增量式Apriori算法的设计与实现

与本文相关的学术论文