大规模网络表示学习和结构发现算法研究

来源 :河北地质大学 | 被引量 : 0次 | 上传用户:tianwang782
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代产生大量结构复杂、规模庞大的数据,如社交数据、电信用户数据、在线电商用户数据、论文链接数据,这些数据可建模为网络,网络聚类结构规律的发现已成为当前研究热点之一。研究者提出大量基于Spark的大规模社区发现算法,但其不能发现网络中非社区结构。而概论图模型可以发现网络中的各类结构,但其运行效率和网络处理规模有限。基于Spark的概率图模型可以高效地处理大规模网络结构发现问题,发现的网络结构可以保持网络中的全局结构,解决网络表示学习中忽略全局结构的问题。保持社区结构的网络表示学习方法,不仅保持了节点一阶邻近性还考虑了全局拓扑结构。因此,大规模网络表示学习和网络结构发现具有重要研究价值。目前有一些研究者提出了一些用于社区发现的网络结构发现方法,但其对含有非社区结构的网络数据的网络结构发现无效,且对大规模网络数据处理效率较低。网络表示学习可以学习网络节点的表示,将学习到的表示用于后期社区发现任务上,在分析社区发现结果时,可以将发现的社区结构进行表示,融合节点表示和社区表示来增强网络表示学习算法的性能。因此,有必要面向大规模网络,设计大规模网络结构发现算法和保持社区结构的网络表示学习算法,提高具有多种聚类模式的网络结构发现效率和网络节点表示的能力。本论文主要完成了以下几方面的研究内容:(1)针对面向混合结构的网络结构发现算法NMM(Newman Mixture Model)算法,在传统单机版串行计算下,不能有效的在大规模网络数据集上进行网络混合结构发现,提出一种大规模网络结构发现学习算法LNSES(Large scale network structure exploring algorithm on Spark)。该算法基于Spark平台,利用Spark自身分布式计算和分布式存储的优势,在存储空间和运行时间两方面对算法进行改进。实验结果表明LNSES算法在运行时间和网络结构发现准确度方面均优于同类网络结构发现算法。(2)针对Vgraph(A Generative Model)算法没有充分利用节点相似性的问题,融合网络节点之间的分布相似性,提出融合网络节点特征的网络表示学习算法NFVgraph(Node Feature Vgraph)。该算法利用网络节点之间的分布相似性,首先根据分布假说将网络节点进行表示,利用节点自身相似性和Vgraph算法中社区结构的表示,在目标函数中加入计算节点分布相似的损失,最后利用目标函数迭代计算得到最优节点表示和社区表示。实验结果表明NFVgraph算法在后续数据分析任务中优于Vgraph算法。
其他文献
洞庭湖作为我国第二大通江湖泊,对长江中下游地区社会、经济发展具有举足轻重的作用。一方面水利设施兴建、围堰等造成水环境容量减少,另一方面流域内工农业的发展和城镇化进程导致污水排放量剧增,导致洞庭湖水体富营养化程度逐年升高、水华现象频发和水生植被退化等一系列水环境问题。如何有效识别洞庭湖水体富营养化成因并提出适用于洞庭湖的控制阈值已成为当前洞庭湖水环境保护的重点。考虑到洞庭湖水环境特征存在显著的时空异
随着全球经济的快速发展,能源需求与消耗急剧增长。化石燃料的过度开采和利用带来了极其严重的环境污染问题。氢能由于具有能量密度高、燃烧产物无污染等优点受到广泛关注。
<正> 鄯善县人大常委会办公室在组织征订《新疆人大》月刊和《会刊》连续两年受到嘉奖表彰的基础上,1998年度加大宣传力度,把征订工作与换届选举工作结合起来,拓宽征订面,使
基于中国人口老龄化的现状,老年人使用抗生素后,由于老人生理机能发生改变,容易出现中枢神经性系统、胃肠道等不良反应;在过去几十年里,抗菌药为治疗人类和牲畜细菌感染疾病
我国广西地区广泛种植木薯,近年来以木薯为原料的燃料乙醇生产取得重大成果,但浓醪发酵酒度仅达到14%(v/v)左右且残糖高、发酵周期长。为了解决浓醪发酵过程的一系列问题,实
随着国家经济建设不断加强,我国的金融体系趋于完善,国内金融机构对外发展需求日盛。在这样的背景下,国家对于境外的金融机构降低了准入门槛,这在一定程度上活跃了国内的金融行业,但同时也加剧了国内金融市场的竞争。其中,金融机构的绩效评价系统与其自身的实际发展严重不匹配,为了适应日益激烈的市场竞争环境,国内金融机构绩效评价系统的改革势在必行,本文正是基于这样的背景而进行研究的。平衡记分卡是企业管理的一项有效
随着互联网技术的快速发展和普及,不同格式的数据不断涌现,包括文本、图像、视频以及音频等数据,其中文本类型的数据占据主导地位,因此如何从海量的数据中挖掘出有价值的信息
目的:探讨3D视频游戏对稳定期精神分裂症患者阴性症状、阳性症状、认知功能及静息态脑功能活动局部一致性的影响,探讨3D视频游戏训练前后稳定期精神分裂症患者临床症状与脑影像之间的联系,为慢性精神分裂症非药物治疗提供新的思路。方法:纳入符合DSM-5精神分裂症诊断标准的稳定期住院患者50例。随机将患者分为试验组(n=25)和对照组(n=25),对照组仅给予常规治疗,试验组在常规治疗的基础上给予3D视频游
兼具实用性和艺术性特征的工业品外观设计在其专利失效后是否还能依著作权法进行后续保护,理论界对此一直都存在争议。由于我国现有法律并未明确规定排除对专利失效的外观设计依著作权法的后续保护,各地司法裁判也因此出现了同案不同判的情形。外观设计专利权终止后能否依著作权法保护的问题主要体现在两个方面,一是,该外观设计能否依其图案设计要素作为美术作品获得著作权法的后续保护;二是,该外观设计整体是否能作为实用艺术
学习不良是指,智力发展正常、无身体或精神方面疾病,但学业水平显著落后,且常伴有一般心理行为问题。其本质是个体心理过程的自我失调,是心理发展不充分、不和谐的一种表现,具有可转化、可教育的特点。学习不良究其原因并非由病理性或先天因素引起,而是个体、家庭、学校、社会、文化、地域等多方面因素共同作用的结果。学业自我效能感是指,个体在学习活动过程中,对学习胜任者角色的一种主观体验,具有可塑性、预测性、个体差