基于MapReduce的高效频繁子图挖掘方法研究

被引量 : 0次 | 上传用户:zzzzzz123zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图挖掘的研究已经成为现今数据挖掘领域里重点研究方向之一,尤其是频繁子图挖掘问题引起了广泛地关注。挖掘频繁子图为的是找到图集合里频繁存在的子图集模式。由于得到的结果集能够运用到相似性搜索、图聚类和分类、图索引等诸多图挖掘应用中,从而使频繁子图的挖掘成为一个颇具挑战的基础性研究问题。目前已有的频繁子图挖掘算法的高效率特性,通常基于图集规模不大,而且可以一次全部调入内存的假设。但事实上伴随数据规模的逐渐扩大,许多海量规模的图集合已经不能完全调进内存,当出现这种情况时,已有的挖掘频繁子图的算法在运行性能上已经达不到要求。MapReduce框架处理大规模数据时体现了很好的性能,并且目前使用这个框架的频繁子图挖掘算法还很少。因此,研究基于MapReduce的高效频繁子图挖掘算法,将能够大大提高频繁子图挖掘的效率,更有效地帮助用户了解图集的特征并在此基础上对图集进行深入处理。本文在Hadoop平台上实现了一种基于MapReduce的高效频繁子图挖掘算法Cloud-GFSG。算法基于Apriori思想,在扩展边生成新的子图时,使用已经挖掘出的k-1阶的频繁子图生成k阶的频繁子图。同时,检查是否存在待扩展生成的子图,设定生成频繁子图的表示规则,保证了频繁子图信息的唯一性。较同类算法相比,本文提出的算法在挖掘频繁子图时更具有通用性,并且在扩展边时避免产生大量的复制图,从而使得算法的正确性得以保证且运行时间效率显著提高。
其他文献
萘酰亚胺类化合物具有优异的光、热和化学稳定性,是一种具有独特的光物理和光化学性质的有机光电材料。这一类化合物在太阳能电池、有机晶体管、生物抑制剂、生物探针以及离
作为一种新型网络,无线传感器网络(Wireless Sensor Networks, WSNs)现已应用到健康监护、军事观察、交通维护、环境观测等许多领域。随着无线传感器网络的广泛应用,随着无线
目的:通过研究应对性护理模式和常规护理在口腔修复护理中感染的发生率,评价应对性护理模式在口腔修复科交叉感染护理中的应用价值。方法:选取2016年10月-2018年10月本院口腔
本文研究基于这样一个事实,就是由于输电系统的扩展无法与日益增长的输电服务相协调而造成了目前电力系统的过载严重问题日益凸显。之所以造成这样的问题是由于环境和经济的
未成年人由于心智不成熟,缺乏控制认知与辨别是非的能力,因此难以预见违法犯罪行为的后果。近年来犯罪低龄化问题日趋严重,由于法制观念的进步和认知水平的提高,人们不再简单
高中阅读课教学中,教师要讲究教学艺术,来激发学生的主体意识,培养学生能力,从而提高阅读教学效益。
目的:应用国际通用的SF-36生活质量调查问卷,比较终末期肾病患者采用维持性血液透析或肾移植两种不同的治疗方法,患者的整体生活质量状况,比较二者不同时期的生活质量及随时间
利用抗性外源基因的整合,获得对水稻害虫和除草剂均有一定抗性的的转基因植株,通过对遗传转化过程中各种条件的研究,将Bar-Bt-1Ab基因的高纯质粒DNA通过花粉管通道法转化到松
近年来沥青路面建设获得飞速发展的同时,也出现了不同程度的早期病害。这些病害中以高温车辙、低温缩裂等温度相关病害最为突出。目前主要应对思路是提高路面材料的性能标准,这
英语专业八级考试(TEM-8)是一项由国家教育委员会主办,已进行了近二十年的规模标准检查考试。本文是对2004年专八改革后2009年到2013年的阅读理解进行内容效度的历时研究。根