并行图挖掘算法的研究与实现

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:kenshin578212121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息化时代的到来,各种信息以爆炸式增长,导致图的规模日益增大,传统的图挖掘算法已经不能很好的满足需求。一方面,并行计算可以有效解决这个问题,而包括Hadoop、Hama以及Spark等在内的云计算平台都能较好得支持大数据的并行运算,它们在不少领域都有着广泛的应用。另一方面,对于某种特定的图挖掘算法,在一定的数据规模下,到底哪一个平台更加适合该算法的实现,这是一个非常值得研究的问题。为了解决上述问题,本文分别从云计算平台以及图挖掘算法的并行化两个方面进行研究。对于云计算平台方面,本文主要从它们的系统架构以及相应编程模式的关键技术来进行分析,从原理上研究了MapReduce、BSP、Spark编程框架的底层机制,并以此为基础设计实现并行的图挖掘算法。对于图挖掘算法的并行化方面,本文将图挖掘算法分成三类:图排序算法、图聚类算法、图属性分析算法。首先在研究算法原理的基础上,分别在三个云计算平台上并行实现这些算法,然后搭建实验环境并进行性能测试,通过对比发现基于Spark与Hama实现的程序的运行效率高于基于Hadoop实现的程序的运行效率,同时相对于Hama, Spark表现出更好的可扩展性。根据研究的结果,本文最后实现了一个基于Spark的并行数据分析系统,通过实验证明了此系统效率和性能都超过传统的MapReduce技术的平台。
其他文献
区块链技术在2008年比特币提出后得到了快速发展,并逐渐被作为一个可信的分布式账本应用在金融和数字内容保护领域。随着许可类区块链的应用变得更加广泛,一些分布式系统中的
植物的颜色是由于植物中的有机色素对光的选择性反射与吸收造成的。植物叶片中的色素主要有3大类:叶绿素类,主要有叶绿素a、叶绿素b;类胡萝卜素类,主要有类胡萝卜素和叶黄素;类黄
进入21世纪以来,多核处理器的出现预示了CPU芯片行业未来的主要发展方向。多核处理器具有低主频,高性能,低功耗等优点,它解决了传统处理器体系结构技术所面临的瓶颈。   DNA序
基于视频的目标检测与跟踪识别技术在军事、航空航天、科学探测、天文观测以及智能视频监控等领域具有越来越广泛的应用。由于它涵盖了计算机视觉、人工智能、模式识别等多个
航空、航天、航海相关技术一直是衡量一个国家实力的重要指标之一,惯性导航技术作为一项涉及到机电,电子,计算机,自动控制,光学,精密仪器等多个学科的交叉学科,在航空航天航海领域有
学位
随着网络的普及和深入应用,Web从一个静态内容提供平台逐渐演化成为一个协同应用的发布和使用环境,使得将软件以服务的形式交付给用户(SaaS)成为可能。多租户SaaS架构作为一种
植物是自然界最常见的景观之一,对植物形态及生长发育进行建模,一方面对于探索植物生长过程的规律,深化对农学、植物学的研究具有重要的意义;另一方面,植物建模技术已在艺术设计、
为软件项目构造合适的过程模型对提升软件质量和生产率具有重要意义,但这也是一个知识密集,耗时费力的工作。为此,北京大学软件工程研究所提出了一种基于模式的软件过程构造方法
随着硬件、网络与通信技术的飞速发展和实际应用需求的持续推动,数据流作为一种新的数据形式在众多领域有着广泛的应用。目前对于数据流管理的研究成果主要集中于近期数据流的
随着互联网信息大爆炸时代的来临,人们可以从互联网上获取的信息也越来越多。搜索引擎的诞生解决了在海量互联网网页中检索特定信息的难题。然而随着时间的推移,旧的网页在消