基于多尺度的频繁项集增量挖掘及并行化

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:HYB1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化时代,社会各领域中的数据都在急剧增长,数据挖掘成为了从数据海洋中挖取有价值数据的有效手段,关联规则作为数据挖掘领域的一个主要研究方法,能在大量的数据中找到事务之间的联系、相关性等。频繁项集生成作为关联规则挖掘的关键步骤,具有较高的时空复杂性。实际环境中数据集往往是动态变化的,为了适应其快速更新,需要通过高效的动态挖掘即增量挖掘对挖掘结果进行维护。多尺度理论可以揭示数据对象的结构和层次特征,从不同角度和层次反映它们的本质,结合多尺度特性可以有效加快频繁项集增量更新过程。在面对大规模数据时,单机下的频繁项集挖掘存在着严重的计算瓶颈,使之难以适应大数据分析的需求,因此,必须依靠高性能计算平台和技术,目前流行的分布式通用计算框架Spark提供的弹性分布式数据集RDD可以使用内存计算加快计算速度。本文通过对相关算法研究,主要贡献如下:1.结合多尺度理论,基于多尺度的频繁项集增量挖掘算法被提出,称为FPMSIM。该算法能利用不同尺度之间的相关关系实现数据的间接挖掘,从而避免数据集的重新扫描和树结构的不断调整,加快了频繁项集的更新。2.基于高性能的计算技术Spark,提出了并行FPMSIM算法。Spark是为处理海量数据而设计的通用计算引擎。利用Spark技术能加速大规模数据的处理,且依据概念分层理论将不同基准尺度数据集分到不同节点可以减少分组策略带来的开销。3.并行FPMSIM算法实现过程中,考虑到内存资源不足的问题,本文设计了低代价二次执行缓存策略(LCDERP),该策略充分利用第一次执行获取的信息对RDD缓存进行优化。4.在不同数据集上将FPMSIM算法和一些算法比较。实验结果表明,在处理增量数据时,FPMSIM算法时间效率更高且并行FPMSIM算法是有效的。
其他文献
生产管理与设备维修管理作为生产过程中的两个重要的管理工作,二者的合理统筹安排对于维持和促进企业的高效运转有着重要的作用。生产会导致设备的消耗,并且生产投入越多,设备损耗越大,设备的维修成本就越高;而维修必然会导致设备一定程度的停机,如果维修不考虑生产因素,凭经验决定维修时间,可能会导致生产延迟,甚至不能如期交货,所以对两者进行联合决策已经成为生产领域关注的一个重要研究方向。随着现代计算机技术和传感
随着科学技术日新月异的发展,电子设备已经变成人们生活的必要,频繁使用手机、电脑等电子产品,使得干眼症发病的概率大大的提高。干眼症已经越来越成为一种常见的眼科疾病之一,若是不及时进行治疗可能会引发其他的眼科疾病。因此迫切需要相应的干眼诊断设备来进行干眼诊断检测。针对目前干眼诊断仪器体积大、成本高、帧差法检测结果不准确等问题,本文研究提出了一种基于便携式干眼诊断设备,其主要研究工作如下:(1)研发了一
面对经济全球化的大背景以及改革开放的进一步深化,物流行业良性发展,我国物流行业的发展正在稳步推进、稳中向好。在输送机领域同样如此,开发适应复杂工况、克服其他传统输送机缺点的输送机成为大势所趋。同常规带式输送机相比,压带带式输送机有诸多优点:整机长度短、重量轻、投资少;无落料和粉尘飞扬等类似的现象,工作环境清洁;整机的工艺布置灵活等等。压带带式输送机是将所输送物料夹持在上下两条输送带(上带称作覆压带
点阵结构质量轻,具有极强的抗屈曲、抗冲击能力,该结构在压缩过程中几乎维持恒定的能量吸收效率,可以用作吸能装置。目前点阵结构已应用于航空航天结构、交通代步工具以及爆炸和冲击防护系统。本文自行设计了叠加点阵结构,并对其力学性能与吸能性进行研究,可望得到高力学性能与高吸能性的点阵结构,论文工作具有理论与实际意义。本文在传统点阵结构基础上,设计了三种叠加点阵结构(SR结构、BS结构、BR结构),并以316
近年来,颗粒物污染得到持续改善,但其仍然是我国北方地区的首要污染物。研究显示,有机气溶胶(OA)成为我国颗粒物污染的主要成分,探究其来源和形成过程是治理灰霾问题的关键。本研究采用高时间分辨率的飞行时间气溶胶化学形态监测仪(TOF-ACSM)在晋中市某地进行冬季PM2.5在线观测(包括COVID-19疫情期间),分析了该地PM2.5的化学组成,探讨二次有机气溶胶(SOA)形成机制。通过对COVID-
表面织构化能积极改善零件表面的摩擦学性能,通过冷压精密成形的方法制造摩擦副表面织构是一种先进的工业化表面织构制造手段,其核心技术之一就是压印模具的设计与制造。模具的制造水平和工艺代表着一个国家工业化发展的水平,具有表面微细结构的精密模具产品的研究和应用是当前研究的热点,尤其是在微机电系统、航空航天、通讯与电子技术、精密仪器与机械、生物和医疗器械等领域。模具微细结构加工主要采用的技术有电火花加工、电
不锈钢焊带的堆焊层长期处于高温、高压、临氢等恶劣环境中,堆焊层熔敷金属的质量如何,在一定程度上影响加氢反应器等设备的有效使用寿命,因此其质量要求很高。不锈钢焊带自主研制不仅仅具有良好的经济效益,还有利于加速我国节约资源型不锈钢板材产业化的步伐,提高我国高端不锈钢材料的国产化水平,促进国内高端装备制造业的发展。本试验在Q345R母材表面埋弧堆焊不锈钢焊带309L和316L,其中不锈钢焊带309L为过
高线轧机中导辊通常因磨损开裂而失效,而氮化硅陶瓷作为高耐磨材料逐渐被冶金领域应用,本文通过确定最优烧结助剂成分配比和最佳烧结温度,用气压烧结(GPS)制备高耐磨氮化硅基陶瓷导辊,最后通过现场实验测试,对其耐磨性做出评估以验证制备工艺的可行性。研究内容及结果如下:1)通过设计正交实验初步得到Al2O3-Y2O3和Mg O-Y2O3系Si3N4陶瓷的最佳烧结助剂配比和烧结温度范围,对得到的烧结温度范围
多智能体系统凭借其高效率与执行任务多样化特性,解决了诸多实际工作中的难题,在各行各业中也扮演着越来越重要的角色。避障作为多智能体系统的核心研究领域之一,更是受到了科研工作者的高度重视。在障碍物多而复杂的环境中,多智能体系统应用仿生智能优化算法进行有效避障;相比较传统避障算法,仿生智能优化算法提高了避障的时效性与环境适应性,且解决了避障过程中易陷入的局部最小值问题。本文基于仿生优化算法进行多智能体避
云计算作为一种新型的计算服务模态,在新一代信息技术领域得到广泛应用。云计算环境下的安全问题主要包括数据安全存储、数据安全审计和加密访问控制三个方向,作为云计算最重要的应用领域,云数据存储技术得到广泛应用和深入研究。云计算环境下的数据存储主要包括数据持有者、云服务提供商和数据租用者三部分组成,当数据持有者将本地可控的数据资源存储到云端,就失去了对数据完整性和可用性的控制。对于数据持有者而言,云服务提