一种基于Spark平台的带有时间约束的频繁序列挖掘算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:z504555643
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘问题,由于其在实践中广泛的应用,已引起学术界的持续关注。虽然目前已经有一些序列模式挖掘算法,但因为它们需要多次扫描整个数据库,所以效率相对较低,并且大多数算法都没有考虑到时间因素对序列模式挖掘的影响,它们并不能对有时间限制要求的序列模式进行出现频率的统计和挖掘。在对各个序列模式的出现频率进行统计的算法中,ONCE算法可以在只扫描一次数据库的情况下,统计出带有时间约束的序列模式在序列流中出现的频率。但该算法只能应用于处理序列模式之间无交叉的情况,当序列模式之间存在某种交叉时,使用ONCE算法统计出的结果就是不准确的。在本文中,我们对ONCE算法进行了修改,可以在序列模式之间存在交叉的情况下,也得到准确无误的结果。随着因特网,电信,工业系统的迅速发展,每天都会产生海量的信号序列和流式数据。一方面,由于海量序列中信号的数量十分巨大,分析这些序列是一件非常耗时的事情,所以要求处理的算法必须是高效的,可以并行化计算的。另一方面,由于流式数据是无限的,非匀速产生的,因此对于流式数据的计算方法,必须是可以动态更新和存储的,也同样要是高效的,当前的多数算法都无法达到要求。为了解决对海量数据和流式数据进行带有时间限制的序列模式的挖掘问题,在对各个序列模式进行频率统计的重要过程中,我们分别提出了两个高级的模型,SparkONCE和StreamingONCE。最后经过试验,SparkONCE显著提高了对于海量信号序列的处理效率,可以使用很少的时间和空间进行统计和计算。而StreamingONCE则可以很好地解决流式数据所面临的序列挖掘问题,可以对信号产生密集的流式数据进行处理,效率可以达到每秒处理数百万个信号。在对各个序列模式出现频率的统计算法分析结束后,我们讨论了怎样使用SparkONCE分别结合Apriori算法和FP-growth算法对海量数据进行高效的序列模式挖掘工作。接着还描述了使用StreamingONCE算法后如何使用时间倾斜窗口对统计后的数据进行动态的更新和存储,通过使用有限的空间存储无限的数据,并且能保证处理时间的稳定,以及数据统计的正确性。综上,在本文中我们主要对现有的ONCE算法进行了修改,使其可以对序列模式之间存在交叉情况进行准确的出现频率统计,而后又提出了SparkONCE和StreamingONCE两种算法,以满足对海量数据和流式数据进行带有时间约束的频繁序列挖掘的需求。
其他文献
不良资产的问题是全球金融机构都需解决的问题,如何有效化解不良资产也是我国的经济和金融市场面对的一个重要问题。受经济下行和供给侧改革的影响,中小企业债务压力激增,我国持续面临不良资产余额及不良资产率“双升”的局面,不良资产问题已成为我国经济运行中的隐患。如何有效盘活存量不良资产,保障我国经济健康有序发展,是我国金融工作中的重点。究其原因,是不良资产价值在市场运行中未能充分得到体现,使不良资产市场配置
有限词和无限序列在数学,物理学,生物信息学等很多领域扮演着越来越重要的角色.代换可将字母生成词,再将词生成序列.这些序列的优良性质引起了数学家们研究的兴趣.Z.-X.Wen和Z.-Y Wen发现了作用在两个字母表上的可逆代换的幺半群是有限生成的.但是在一个更大的字母表下,情况将会变得更加复杂.Z.-X.Wen和Y-P.Zhang证明了作用在三个字母表上的可逆代换的么半群不是有限生成的.本文主要总结
教师职业倦怠早已是一种普遍存在的职业病和社会现象,研究显示职业倦怠会影响教师的情绪劳动,一般自我效能会影响职业倦怠,但已有成果尚未研究职业倦怠与情绪劳动和一般自我
荷载作用下氯离子在海工混凝土中的传输是导致其结构劣化的主因。目前对氯离子在混凝土中传输特性的研究主要将其传输系数视为常数,实际上传输系数是多因素影响的变化值。此外,当前多数理论和试验研究侧重于氯离子一维方向的传输,而对更加符合实际情况的二维方向的传输研究较少。因此,研究荷载作用下的氯离子多维变系数的传输特性,对于混凝土结构耐久性的研究具有重要理论和现实意义。本文研究内容和结论如下:(1)氯离子扩散
以太坊被称为区块链2.0技术,其最主要的设计思想就是基于智能合约的上链技术,在以太坊大受欢迎的过程中,智能合约却也一直面临着多方面的安全漏洞的问题,这些漏洞经常受到黑客的攻击,从而导致在过去几年中造成的虚拟货币的损失达到数亿美元。因此本论文设计和实现了一个有效的智能合约扫描器,为智能合约应用商和开发者提供安全审计,这不仅能提升维护开发者和区块链用户的安全,也能显著推动区块链行业的健康化发展。本论文
伴随着智能制造的步伐,具有智慧管理特征的“无人工厂”应运而生。而作为工业生产流水线主力军—工业机器人,已经广泛的应用于工业实际生产中,极大地提高了生产效率。在搬运体积大,质量重以及形状不规则作业过程中,单一机器人在信息获取、处理、动作控制等方面存在一定的局限性。多个机器人通过协作,可以完成单机器人难以完成的复杂作业,使多机器人系统解决更多地实际问题。文章提出双机器人系统协调搬运作业控制方法,解决单
缺陷检测在工业应用中是一项非常重要的环节。近几年基于机器视觉的缺陷检测算法主要是借鉴各种深度神经网络,直接对表面图像进行缺陷检测。但在实际应用中,尤其是机器巡检中的缺陷检测,会存在动态背景干扰、直接检测速度慢、训练模型时缺陷样本少等问题。本论文针对机器巡检视频缺陷检测的特殊问题,研究了运动场景目标分割、视频序列异常快速检测和表面纹理缺陷检测算法,并基于以上算法实现了适用于户外机器巡检的快速缺陷检测
Carbyne被定义为由sp杂化成键碳原子构成的无限长线性碳链,是真正的一维碳同素异形体。理论计算表明,Carbyne是世界上最硬的材料,其抗拉强度为碳纳米管和石墨烯的两倍。然而,随着连续的sp碳原子数量的增加,线性碳链(Linear carbon chains,LCCs)会变得越来越不稳定,因此在实验室合成超长LCCs仍然是一个巨大的挑战。Polyynes(C2nH2)可作为前驱体分子填至双壁碳
伴随着互联网时代的进一步崛起与5G时代的到来,传播渠道得到不断发展与拓宽,与此同时,传播媒介也不断诞生出新的可能,使得纪录片这一传统的艺术形式得以发展与蜕变。微纪录片,这一新兴的创作模式,打破传统纪录片的创作格局,在众多主流网络与自媒体平台上广泛传播,并受到颇多关注。在当下的影视文化语境中,叙事形式不断革新,探究如何在传统纪录片的固定模式下推陈出新,用一种全新的叙事方式表达主题,应对更加多元的受众
氮掺杂的石墨烯本身具有良好的电化学性能,制备的微球结构因具有大比表面积,电催化性能更加优异,作为超级电容器电极材料具有广泛的应用前景。旋转圆盘电极是测量材料电化学本征反应速率的一种常用方法,通过旋转运动产生的强迫对流,可在一定范围内消除浓差极化。然而采用经典电极动力学模型(Koutecky-Levich公式)得到的反应速率仍然受传质过程影响。且氮掺杂的石墨烯微球电极并非传统的平板电极,表面的多级孔