基于图神经网络的自监督异质信息网络表征学习研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:xiaohuimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为对现实世界建模的一种重要工具,图结构数据广泛存在。而对于图结构数据的表征学习受到了很多领域的广泛关注。然而,无论是传统的基于矩阵分解的图算法还是基于深度学习的图神经网络,通常将关注点都集中在同质网络,即只含有一种类型节点和一种类型连接的网络。然而在真实场景中,互联的节点通常属于多种类型,且连接关系也因所连节点类型的不同而不同,这就是所谓的异构信息网络。相比于同质信息网络,异质信息网络蕴含更加丰富的信息。对异质信息网络的研究成为网络科学和数据挖掘领域中重要的分支,且成果被广泛用于推荐系统等实际问题中。图神经网络作为利用深度学习的强大的表示能力处理非规整图数据的有效工具具有坚实的理论基础和卓越的性能。通常,图神经网络在同质信息网络上的半监督节点分类任务中表现突出。一方面,如何无监督地训练图神经网络是该领域的重要研究课题。另一方面,如何将图神经网络扩展到高效处理异质信息网络也是提升图神经网络实际应用价值的重要问题。基于此,本学位论文主要研究无监督条件下利用图神经网络对异质信息网络进行表征学习,主要分为以下两个方面:首先、从理论层面提出元路径之间的共识性假设。近年来涌现出的大量基于深度学习的异质信息网络算法,通过假设不同的元路径所诱导的同质信息网络之间是互补关系,将图神经网络算法从同质信息网络拓展到异质信息网络。然而,这个普遍被接受的假设是值得商榷的。一方面,这些诱导得到的同质信息网络之间共享节点本身的所有属性。另一方,图神经网络的本质是对网络中节点属性进行传播和平滑。因此,不同的元路径代表了不同的属性传播路径。从而,基于互补性假设将不同元路径所得到的节点表征组合起来,实际等价于让异质信息网络退化为同质网络进行处理。基于此,本文提出了共识性假设,即节点在多个同质信息网络所共享的属性才是最为本质的,而在每个同质网络所特有的信息则较大概率是噪音。其次,在模型层面提出异质图信息瓶颈算法。本文利用自监督学习策略,将监督学习领域的信息瓶颈理论拓展到异质图表征学习问题中,提出了基于图神经网络的自监督异质信息网络表示学习算法SSH-GNN。具体地,SSH-GNN同时最大化两个同质信息网络所学得的节点表征之间的互信息,并且同时分别最小化两个同质信息网络中所特有的信息及其所学的节点表征之间的互信息。实验部分将SSH-GNN应用于现实应用的网络数据中,在以F1分数为标准衡量节点分类任务的结果,以ARI和NMI为标准衡量节点聚类任务的结果。通过大量的实验在各方面证明,SSH-GNN在节点分类与节点聚类任务方面显著优于当前主流的基于互补性假设的大多数半监督网络表征学习方法。总之,本学位论文在理论层面提出的共识性假设及在模型层面基于共识性假设设计的异质图信息瓶颈算法有效的解决了无监督条件下利用图神经网络对异质信息网络进行表征学习问题。
其他文献
目的:分析小剂量骨化三醇对维持性血液透析(MHD)患者骨保护素(OPG)的影响。方法:选取90例MHD患者开展随机对照试验(RCT),采用随机数字表将纳入对象分为两组,基础组予以基础支持治疗,研究组在基础组方法治疗的同时采用小剂量骨化三醇治疗,共3个月。对比治疗前后血清OPG水平、骨密度T值变化,治疗期间骨质疏松症发生率及不良反应。结果:治疗后研究组血清OPG水平较治疗前升高(P<0.05),基础
期刊
目的 系统评价骨化三醇对维持性血液透析(MHD)患者微炎症及钙磷代谢的疗效。方法 计算机检索万方、中国知网、中国生物医学文献数据库、维普网中文数据库,以及Pub Med、Cochrane Library、EMBase外文数据库关于使用骨化三醇对MHD患者微炎症状态及钙磷影响的随机对照试验(RCT),检索时间为建库至2022年3月。治疗组以骨化三醇为干预措施,对照组给予常规治疗或安慰剂,采用Rev
期刊
2013年修订的《商标法》增加了第五十九条第三款,规定未注册的有一定影响的在先使用商标在原使用范围内的继续使用,不侵犯注册商标专用权。此条款将在先使用商标继续使用的范围限制在原使用范围,限定使用范围的法理基础在于在先使用人善意的商标使用行为,以及由此建立起良好的商誉。对原使用范围的认定影响着在先使用商标和注册商标之间的利益平衡,同时也影响着消费者利益。然而由于没有细化的规则和系统的论证,理论和司法
学位
近年来,信息网络的高速发展使网络中文本数量呈指数级增长,为了能够快速地在海量文本中寻找有价值的信息,文本挖掘技术也随之迅速发展。其中,自动文本分类技术不仅为文本处理研究的热点,在实际场景中应用也最为广泛。目前常用的文本分类模型使用词嵌入模型加单一神经网络(如:Word2vec+LSTM),虽然能够在普通文本分类中取得较高的分类精度,但是在内容相近的模糊文本分类中效果却不太理想。因为此类模型中用静态
学位
随着高铁的快速发展,建筑的日益增加,高铁站房的建设需求日益增加。高铁站房工程所涉及的专业多,施工难度大,工序复杂,利用BIM技术将高铁站房建设通过BIM平台构建完整的施工流程预演,有助于协同施工各专业之间的信息沟通,提升建设速度与建筑质量,有利于施工人员把握施工的进程与控制,进一步提高高铁站房的信息化管理水平。
期刊
经济的发展离不开知识生产和人力资本的积累,技术创新在促进国家经济高质量发展中的地位也越来越重要。创新研发的不断进步为我国经济的稳中求进提供了坚实的基础。但是与发达国家相比,我国的科技发展还处于相对落后的局面,为此,早在2006年,我国就提出了“创新型国家”的发展目标。之后在党的十八大报告中又近一步明确了创新驱动发展的战略,为我国的企业和社会发展指明了前进的道路。企业是我们国家创新发展的主力军,充足
学位
数字平台企业作为数字经济最主要的组织形态,因其独特的竞争属性和垄断倾向,受到了国内外反垄断执法机关的重点关注。就目前实践而言,我国反垄断执法机关在对数字平台企业的反垄断监管中引入企业合规机制,通过发布合规指引、进行行政指导等柔性推进模式,来推动企业反垄断合规,一定程度上规范了数字平台企业的垄断行为。但由于国内反垄断合规制度建设尚处于探索中,不可避免地存在合规激励动力不佳、法律依据不足、合规整改有效
学位
信用惩戒是我国社会信用建设的核心制度,也是行政主体进行信用治理,社会治理方式的新范式。认定存在失信行为是实施信用惩戒的前提。当前理论界和实务界对失信行为认定不乏启人思考的研究,但也不是无懈可击。理论上,对于失信行为认定的研究不够深入且过于简单,存在留白,未能有效指导信用治理实践。实务中,认定失信行为的法律依据位阶过低,各地做法不一且缺乏信用关联性,认定标准模糊守法、履约和道德规范之间的界限,对失信
学位
目前地震勘探技术在地球物理学领域占据重要的地位,是油气资源勘探中重要的技术支撑。由于地理因素和经济因素的影响,采集方式的不同会造成地震数据的缺失,这会导致地震资料解释过程十分困难,因此地震数据重建过程尤为重要。本文是以地震数据重建实际问题为导向,以地震数据物理场规律作为课题出发点,旨在提高地震数据重建的精度和速度。首先,从地震数据物理场背景出发,根据三维地震数据建立的块Hankel矩阵的低秩特性,
学位
随着智能化进程的发展,计算机对图像的处理变的越来越精细,简单的识别出图像中的物体和对象已经不能够满足人们日益增长的生活需求,计算机不仅需要识别出图像中的内容,并且需要将之转化为文本描述。图像字幕生成任务已成为图像处理中的一项高级任务,在图像自动化检索、图像标注、视觉障碍者的日常辅助等领域中应用广泛。图像字幕生成,本质上就是根据输入的一张图片,生成相对应的描述,类似于“看图说话”,因此,生成的图像字
学位