基于GraphX的重叠社区发现算法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:hexin123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络图是生活中离不开的一个概念,以社交网络图为例,人与人之间的关系往往呈现出一种社区结构,社区中的人比与社区外的人交互更加频繁。对这样的社区结构进行分析能够得到有意义的信息,如寻找社交平台上哪些人的影响力最大等。社区发现的研究具有重要的现实意义,成为长期以来众多学者研究的课题。随着对社区发现算法研究的不断深入,涌现出很多经典社区发现算法。这些算法基于不同的思想,本文主要研究基于局部扩展思想的重叠社区发现算法。这类算法过程简单,效率高,具有一定的准确性,但有初始社区选择不准确、扩展方法效率低等问题。本文对经典局部扩展算法Doc Net进行改进,在不使用网络先验信息的基础上,结合节点重要性算法完成了改进的DOCLLE算法,最终将算法并行化地运行在分布式计算平台Spark提供的图计算框架Graph X上。本文的主要工作如下:第一,阐述社区发现算法的研究背景、意义及在该领域的研究现状,并对经典的社区发现算法进行了概括性地介绍。研究了社区发现及Spark的相关理论知识,为改进算法和算法的并行化提供理论基础。第二,在DocNet算法基础上,融入重要性排名算法和局部相似度概念对初始节点选取和节点隶属度计算方法进行改进,使社区划分准确性更高。第三,设置多组对照实验,分别在人工生成网络和真实网络上做对比实验,选取经典的重叠社区发现算法进行对比,并且采用不同的评价标准对各个算法的社区划分质量及稳定性等方面进行评估。实验结果表明,随着社区规模的增大,所提算法的社区划分能力在逐步提高并具备较原算法更高的准确性。第四,分析分布式计算平台Spark以及图处理框架GraphX在图计算上的优势,将所提算法用Scala语言改写,使其能够在Spark集群上运行,从而提高算法在大规模数据集上的执行能力。
其他文献
装配式建筑生产方式作为我国建筑业转型升级的重要手段,被广泛推广和使用。预制构件生产是装配式建筑建造的核心环节,其进度安排科学性对整个工程进度具有重要影响,进而影响装配式建筑项目成本和效益。目前装配式预制构件生产进度安排主要依赖调度人员的过往经验,系统性、科学性和持续优化往往考虑不足,容易出现构件生产难以匹配施工进度、施工成本增加和生产效率降低等问题。预制构件生产进度计划安排的科学性和合理性有利于预
自然界的土都具有结构性和时间特性。结构性使土体在低应力阶段延迟变形的发展,而在高应力阶段随着结构性垮塌,这部分变形被急剧释放。时间特性主要表现在土体应变率效应和蠕变两种现象,蠕变会使土的超固结程度增大,应变率效应是指土体强度受到应变率的影响。这两种特性会对土的应力应变关系产生影响,如果在实际工程中忽视或低估则有可能使工程的风险增加。本文在结构性土统一硬化模型的基础上,以移动瞬时正常固结线(MINC
随着我国公路建设事业不断发展,隧道建设数量不断增加,越来越多隧道穿越软弱围岩地层。软弱围岩稳定性差,开挖过程中的变形演化是工程中最受关注的问题之一。同时,准确得到开挖过程中围岩力学参数是隧道设计与施工的重要基础。因此开展软弱围岩隧道变形演化及参数反演研究,具有重要的理论与工程意义。本文主要工作如下:依据实际工程地质条件建立室内相似模型试验,采用数字散斑相关方法与压力盒作为测量手段,开展了垂直荷载对
软体抓手作为软体机器人中的一个重要分支,通常由超弹性材料组成,由于其材料的特殊性使其在抓取一些形状不规则的易碎物体时能表现出良好的安全性与人机交互安全性。然而也因为软体材料的刚度较低,导致软体抓手的负载能力较低,难以抓取一些质量较大的物体,限制了软体抓手的应用。本文设计出一款基于层干扰结构的变刚度软体抓手,从结构设计、制作工艺、弯曲性能、刚度调节等方面进行了详细的研究,主要结论如下:对软体抓手的驱
进入21世纪以后,我国的工业化进程获得了极大的发展,城市建设中高层、超高层建筑得到了广泛的应用,对基础的承载能力和变形性能随之提出了更高的要求,由于桩基础具备较强的承载性能、稳定性及协调不均匀沉降等优点,因而在城市建设工程中得到了广泛的应用,并且已经成为所有深基础形式中的首选形式。在超深桩基础工程中,粘性土作为最常见的土层,长时间以来一直对粘性土中桩侧摩阻力所进行的试验分析比较匮乏,且对桩侧摩阻力
微型机器人作为微机电系统(MEMS)的一个重要分支,以其鲁棒性强、灵活度高、运动方式多样等优点受到了广泛的关注。它因体积微小而可以进入到人类和宏观机器人所不及的有限空间内灵活运动,同时还可在狭窄水域内完成管道探查、水质检测等工作。腿式机器人有出色的越障能力,但也存在运动速度低缓,能量利用效率不高,控制程序较为复杂,可靠性不高等问题;轮式机器人可以在平坦且连续的表面高速、平稳的运动,但此类机器人越障
无人机是近年发展迅速的飞行器。航空活塞发动机以低油耗、低成本优势,成为中高空长航时无人机常用动力。但由于无人机飞行高度的日益提高,作为其动力的活塞发动机也正向提高高空性能方向发展。海拔升高会导致进气压力和空气密度下降,影响进气体积,降低发动机输出功率。采用涡轮增压后,航空活塞发动机的实用升限可以得到有效提高。采用二级涡轮增压,航空活塞发动机的实用升限可提高到10km以上,显著改善无人机高空动力性能
我国人口与土地矛盾突出,特别是重庆巫山地区。本研究从基础设施建设和人居环境改善两个方面入手,提出以悬挂式PRT交通作为交通基础设施的山地乡村规划建设设想,同时利用以悬挂式PRT交通为基础的山地住宅设计,探索巫山陡山建设利用的可能。为破解巫山地区人口与土地矛盾以及我国人口与土地矛盾提供解决参考方案。文中分析了PRT交通、山地住宅和乡村旅游方面的研究,总结现有理论的不足和难点并提出本文的立意点和思路。
出于安全、隐私及治安的需要,身份识别逐渐被重视,而人脸识别由于其独一无二,难以被轻易复制的特性,在生活工作中被广泛运用。目前对人脸的识别主要集中在身份识别和年龄识别、性别识别等少量延伸任务上,对人脸的深度信息提取仍是一个较少被触及的领域。此外,人脸的部分属性在描述时通常难以被局限在面部的某个区域,往往会出现一个目标被赋予多个标签的情况,故对面部属性的描述通常被看作是多标签分类任务。本文从人脸检测出
随着国家工业化进程加快,对各种矿物资源需求增大,导致在用尾矿库数量巨大,尾矿排放量也日益增多,尾矿库安全事故也因此时有发生,造成巨大生命财产损失;同时,由于避免事故的发生,近几年建立的尾矿坝坡比偏小,占地面积过大,库容量偏小。干堆尾矿坝相对湿堆而言有更好的稳定性,可以适当提高坡比。由于我国对干堆尾矿坝的设计还未出台明确规范,因此对干堆尾矿坝合理坡比的确定以及相应加固措施进行研究有十分重要的现实意义