基于Hadoop的面向web规模图数据的社区发现算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:chi2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
来自于真实世界许多不同区域或者覆盖范围的数据集可以表示成社交网络的形式,而且这种表示形式是非常的自然、简洁、有意义。为什么这么说呢?因为这种形式反映巧妙的表达了一种社会化的关系网络。Internet的兴起,尤其是Web 2.0应用的强势崛起极大地拓展了真实世界中的社交关系网络。社交网络应用的流行积累越来越多的关系网络数据(也就是图数据),对社交网络数据的分析可以发现这个社交网络的组织模式以及该网络背后隐藏的一些属性。社区发现和分析是一种重要的通过把大规模网络分割成小的子网络(也就是社区)从而分析复杂的大规模网络来达到理解真实世界网络关系的技术手段,已经在很多的领域中得到了应用。比如,基于兴趣爱好的主题推荐、生物信息学领域中基因调控网络分析、基于浏览习惯的新闻、商品推荐以及根据流行病的传播网络,通过对网络的分析找出网络中传染病的关键社区以及传播源的关键结点等。尤其是最近几年,社交网络应用的强势崛起积累的大量的相关的在各个领域中的数据,这些数据规模都很大,需要通过社区发现等相关的技术来进行分析才能得到利用,从而为经济和社会来服务。因此,对于社区发现这个主题的研究具有重要的理论意义和应用价值。近些年来,许多针对具有数百万条边的图数据的算法先后不断被提出来。这类算法由于面对的是仅仅只有数百万条边的图数据,因此它们的一个共同的特点就是都是在单节点在内存中来对图数据进行运行和分析的。然而,随着大数据时代的来临,随着图数据的增长,大量的图数据得到积累保存,形成了超大规模的具有数十亿条边的图数据。针对这种超大规模的图数据,使用前面提到的在单节点在内存中运行的算法来进行分析是不可能达到目标的。好在随着分布计算技术的兴起,直至今天分布式计算技术已经非常的成熟,出现了以Hadoop为代表的开源的分布式计算平台。像Hadoop这种成熟的分布式计算平台的出现给我们这个大数据时代的针对海量数据的分析提供了可能性。我们的方法就是在Hadoop平台上利用分布式的算法来处理具有数十亿条边的图数据。在这篇论文中,我们展示了如何在有数十亿条边的这种超大规模的图数据中发现社区的。我们的方法基于一种集成学习的社区发现方案。这种方案提供了一种从由较低质量分割组成的集合中识别出高质量的分区的方法。我们提出了一种针对社区发现算法进行预处理的方法。通过这种预处理的方法我们可以显著地降低我们要处理的问题的规模。降低了要处理的问题的规模以后,传统的非分布式的社区发现算法就可以进行应用了。我们在分布式计算框架Apache Hadoop上面实现了一个弱化的但却是可高度扩展的的标签传播算法。通过对我们在Apache Hadoop集群上实现的社区发现算法在多达33亿条边的图数据集上的评估,我们发现该评估展现了在社区质量以及可扩展性方面取得了非常不错的结果。对于一个比较小的只有2.6亿条边的图数据集,结果显示我们的预处理方法同样可以提高基于模块化优化的社区发现算法的结果。在社区发现的研究过程中诞生了非常多的经典的集中式的社区发现算法,在这篇论文中我也选取了非常经典的GN算法来进行实现和分析。
其他文献
目的:回顾性分析埋藏式心律转复除颤器(ICD)及心脏再同步化治疗除颤器(CRT-D)植入术后放电对心功能的影响及优化管理,为临床上管理ICD/CRT-D术后放电的患者提供帮助。方法:入
玉米是我国最重要的粮食作物之一,同时也是对重金属镉(Cd)具有一定富集能力的作物之一。本试验选用已在之前研究中筛选出的2个Cd高富集和6个Cd低富集品种,在5种不同污染土壤进
学位
近年来,随着我国国际影响力的日益增强,越来越多国内企业开始承接海外EPC项目。但是,与国内项目建设不同,海外EPC项目的建设受到当地政治、经济、技术等多方面因素的制约,使得项目在建设过程中存在较大的风险。在这一背景下,笔者根据自己担任“L1M”项目经理经验为例,分析了“L1M”项目在进展过程中所存在的问题,希望为降低海外EPC项目的风险提供一些意见和建议。为了完成本论文的课题研究,本文先就学术领域
语法教学是对外汉语教学过程的重要环节,因此古汉语的语法教学对学生而言就更加重要,本文参考教材所出现的语法点讲解都比较系统、简单易懂,但是在语法教学过程中什么样的内容应该划为重点,什么样的内容只需要作为拓展部分,需要教师能准确地界定。以检索语法重点为出发点,将《古代汉语》(徐版)、《汉语纵横·古代汉语》和《今用古代汉语》中出现的语法项根据复现次数进行逐一地筛选,以此区分教学语法范畴和应用语法范畴。本
新世纪以来,人类经济和科技已经发展到了一定的水平,人们逐渐意识到精神物质发展的重要性。开始向往出国旅行的人数不断增加,享受异地旅行带来的不一样的体验。因此旅游业成
不管是初中、高中、还是小学,学生的阅读能力都是决胜语文考试的法宝,教师在教学过程中应该有意识地去培养学生的阅读能力,引导学生积极去思考、去品味文章,并鼓励他们说出自
近年来,随着国家智能制造及物流行业的快速发展,智能物流机器人作为智能物流车间的执行末端,成为整个智能物流制造行业中无可替代的一环。其中,四舵轮物流机器人运动灵活、运
信用卡业务是商业银行的一项重点营销业务,对于银行的效益增长起到至关重要的作用。随着我国商业银行信用卡发行量的不断增长,信用卡的不良率这一指标也随之呈现不断升高的态势,这无疑会对各大商业银行的经营管理造成一定困难,容易产生各类风险管理问题。跟随信息化的脚步和大数据技术的普及,商业银行信用卡风险管理业务的创新发展迎来了全新的挑战。本论文是以T银行信用卡的风险管理为研究对象,在论文的分析过程中,贯穿文献
本文立足初中语文课堂教学现状的基础上,通过对语文课堂教学现状展开分析,从而探究其中存在的问题。结合问题的角度,切实对学生展开相应的分析与探究,从而落实初中语文"树状"