基于Spark的关联模式并行挖掘算法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:elongyu888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联模式挖掘作为数据挖掘领域中经典研究方向之一,其旨在从表面不存在联系的事务中挖掘出隐藏在背后的关联关系。通过从挖掘的结果中获得启发,作为今后决策的指导。在万物互联时代,时时刻刻都在产生数据,随着数据量不断增大,数据中无用信息也随之增加,知识短缺问题依然存在。因此,从数据本身出发,运用有效技术挖掘可用知识依旧是科研工作者研究的热点。虽然已有一些方法尝试在关联模式挖掘上进行突破,但针对现今大规模数据,关联模式挖掘仍面临极大挑战:如传统单机项集挖掘算法在大型数据集上挖掘失效、并行项集挖掘算法在大数据环境下运行时间长、节点负载不均、内存占用大等。鉴于此,本文针对并行关联模式挖掘过程中出现的困难与挑战,开展以下研究。(1)Spark框架结合迭代算法FP-Growth的优越性分析。首先对传统串行项集挖掘和并行项集挖掘进行比较,在数据集webdocs、mushroom和accidents上的实验表明,基于并行的方法能有效解决大规模数据关联模式挖掘的问题,且在挖掘速率上明显优于串行挖掘。紧接着对基于Hadoop和Spark两种不同分布式平台下的并行项集挖掘算法展开进一步研究,实验表明Spark框架结合FP-Growth算法,相较于Map Reduce而言,展现出更高的挖掘效率和更佳的稳定性。(2)提出一种基于Spark改进的并行项集挖掘算法Opt-SFPG,用于快速挖掘大规模事务集的关联关系。该算法基于Spark框架的优越性,综合考虑对FP树生成规模和节点计算量两方面进行优化,通过在数据集webdocs上实验,验证Opt-SFPG算法挖掘的高效性。为更全面分析改进算法的性能,再利用数据集T40I10D100K和webdocs,从数据规模、支持度、加速比、节点数将双重优化的Opt-SFPG算法同均衡结点计算量的Eq-SFPG算法、改进FP树规模的Ht-SFPG算法、传统的SFPG算法、现有的IPFP-Growth算法以及BFPG算法进行对比,实验结果表明提出的Opt-SFPG算法具有更快的挖掘效率以及更好的并行性。(3)提出一种Opt-SFPG算法结合Spark-LDA模型的方法,实现对大规模文本数据主题词关联关系的挖掘。该方法首先通过Spark-LDA模型得到降维的文本主题描述矩阵,再利用Opt-SFPG算法对该文本主题数据集进行挖掘,最后对挖掘出的关联关系深入分析得到隐含的文本主题信息。以在带有“一带一路”关键词和题名的报刊文本中实现,表明本方法是可行且高效的。
其他文献
近年来,随着区块链分布式账本的快速发展,区块链上的信息增长迅速,在区块链网络中,为了保证去中心化,每个节点都要独立的保存区块链数据,而不断增长的区块链信息提高了区块链网络中节点的存储要求,同时也给新加入网络的节点带来大量同步以及验证的负担,这提高了成为区块链网络节点的门槛,进而导致保存区块链信息的节点数量减少,对区块链的去中心化造成消极影响,不利于区块链网络的发展,因此越来越多的研究着眼于优化区块
激光选区熔化(SLM)3D打印技术由于其个性化定制、能够成形复杂修复体、成形精度高、能大批量生产修复体、理化性能优异等特点,在口腔修复体领域拥有广泛的应用前景。但是SLM技术也存在一系列问题待以解决,其成形件内部孔隙较多、表面粗糙度较差、残余应力较大,以上这些问题一直困扰着SLM技术在口腔修复领域的临床应用。为解决以上问题,本文首先对SLM钴铬合金的显微组织进行表征,分析其显微组织的特点。然后通过
随着中国科技与经济的快速发展,中国汽车持有量仍在大幅增加,然而交通拥堵、交通事故等一系列道路安全问题也在持续攀升,其中由于车辆异常行为导致的悲剧占据多数,无论是车辆故障还是驾驶员问题引起的车辆异常行为均会给自己或者他人带来致命性的伤害。因此,车辆异常行为识别作为智能交通安全管理与智慧城市交通管理领域重要的关键技术,已经成为当今人工智能研究与应用的重要内容之一。近年来,交通监管技术主要着手于车辆违规
金属密封环作为超高真空阀门中的关键密封零件,其性能将直接影响超高真空系统设备的健康运行与工作效率。随着半导体芯片、特种冶炼、真空镀膜等行业的蓬勃发展,超高真空阀门的应用大幅拓宽,其中的金属密封环也面临着更高性能的需求与挑战。因此,通过性能分析与结构优化提升超高真空阀门中金属密封环的综合性能显得尤为重要。本课题以某型号DN40全金属超高真空角阀的金属密封环为研究对象,基于金属密封环的结构受力与密封机
随着微电子技术、通信技术、嵌入式技术和人工智能技术的飞速发展,这些技术已进入到农业和工程机械领域。当前,我国现代农业机械行业正处于加速发展的重要阶段,人们对联合收割机性能和工作效率的要求越来越高,迫切需要提高联合收割机的自动化和智能水平。目前,国内联合收割机机型的自动化程度低于国外机型,联合收割机作业控制所采用的电控手柄主要依靠进口,虽然部分机型已经采用电控手柄控制方式进行收割作业,但大部分联合收
随着高通量技术应用于生物医学研究,生物医学文献的数量急速增长,使用文献挖掘技术自动从文献中准确的提取知识显得尤为重要。而近年来,预训练语言模型如BERT的兴起极大的推动了生物医学文献挖掘领域的发展,其使用基于深层Transformer的模型结构,并通过特定的预训练任务在大规模通用领域语料库上进行预训练的方式,有效的提升了预训练语言模型的语言表征能力,同时通过任务精调的方式在生物医学命名实体识别任务
数据挖掘融合了可视化、统计学、人工智能等多种技术,在对庞大数据隐藏的潜在价值信息的提取中起着重要作用。随着二代测序技术的发展,基因组数据出现了指数级的增长,中国作为人口大国,在公共卫生和疾病预防等方面的公共数据也迅速积累。布鲁氏菌病作为我国的乙类传染病,从21世纪开始有强烈的回升趋势。为了深入了解布鲁氏菌,以预防其引起的布鲁氏菌病,本文采用数据挖掘和生物信息技术,使用高分辨率的方式进行全基因组分析
随着我国制造业的深入发展,各行业对产品制造效率和制造精度的要求日益提高。然而,产品综合制造质量的改善离不开优良的加工制造工具。机床立铣刀是航空、汽车、电子等制造基础产业中使用范围最广的刀具之一,其自身的制造精度将对切削零件的加工质量产生巨大的影响。因此,在立铣刀投入使用前进行质量检测,对制造业产品质量的进一步改善具有重要的意义。本课题来源于刀具生产行业的实际需求,拟采用基于机器视觉的自动化方法对立
气泡水在最近几年越来越受消费者欢迎,尤其在北美、欧洲的饮料市场中。目前手动气泡水机生产出的气泡水口感较差、碳甁气体利用率低、用户操作繁琐。这些问题在目前的市面产品中普遍存在,并且大多数机械式气泡水机无法满足商用场景。鉴于此,本课题设计了一款多功能一体的气泡水机,并且它可以自动产生气泡水。气泡水机的设计包括整机的结构设计、控制系统搭建以及功能系统匹配。本文从气泡水机的结构设计以及性能优化出发,为高性
等离子体雾化(Plasma Atomization,PA)是一种利用高温、高速的热等离子体射流来生产3D打印用高熔点球形金属粉末的新型、颠覆性技术。反转电极等离子体炬(Reversed-polarity plasma torch,RPT)作为产生等离子体射流的设备,是整个等离子体雾化技术的核心,其动静态特性决定了雾化粉末的最终质量。虽然反转电极等离子体炬在雾化生产中已经得到工业应用,但目前仍缺乏对