基于图结构模块的图卷积网络研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:syhrgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是一种描述实体及实体间关系的语言,关于图的研究有着悠久的历史和广泛的现实应用基础。现实生活中存在大量或具体或抽象的实体,同时这些实体之间存在复杂的关系,用图表示实体及实体间的关系更为自然,如计算机网络、分子图、社交网络、知识图谱等。此外,利用图来表示冗杂数据有利于发掘数据中的有效信息。真实图中存在很多结构特殊的子图,这些子图包含丰富的拓扑信息和语义信息,能够反映图的特性,我们称之为结构模块,结构模块是图的重要组成部分。现代机器学习往往用来处理线性数据和网格型数据,这些均为结构规则的数据,而图是一种结构不规则的数据,因此很难将现有的机器学习模型应用到图上。如何将机器学习应用到图上是近些年的研究热点,有效地表示图是解决问题的关键。早期的研究人员试图用人工设置的图特征来表示图,这种方法费时费力,同时效果不尽如人意,后期采用学习的方法来获得图表示,即图表示学习,这种方法大幅提升图相关机器学习任务的表现。其中图卷积网络(Graph Convolution Networks,GCNs)已经成为图表示学习的主流方法,根据卷积运算的不同,图卷积网络被分为谱域和空间域两类,本文主要研究基于空间域的图卷积网络。当前大多数基于空间域的图卷积网络主要采用迭代聚合邻居节点信息的方式生成中心节点的表示,这类图卷积网络存在两个缺点,一是无法完全捕获邻域内的结构模块信息。这些结构模块内部结构复杂,同时包含和中心节点相关的高阶节点,简单的一阶聚合会遗漏很多有用信息,如何充分聚合结构模块信息值得进一步研究。二是这些图卷积网络只能应用于相似图,即图中相连节点相似的图,但这些图卷积网络在差异图上表现较差,而差异图是在现实世界中普遍存在的图,如何将图卷积网络应用于差异图是尚待解决的问题。本文以如何在图卷积网络中充分利用结构模块为出发点展开研究,创新性地提出新的结构模块定义方法,系统分析新结构模块在真实图中的意义,并基于该结构模块提出新的图卷积网络模型,该模型有效解决了上述图卷积网络存在的问题。本文主要研究内容和贡献如下:基于共同邻居的结构模块CN-motif:传统结构模块指的是结构简单,规模较小的子图,这些子图不能很好地表示复杂的图结构。为了解决上述问题,本文基于共同邻居(Common Neighbors,CN)定义新的结构模块CN-motif。CN-motif的定义不依赖于特定的图,不受限于节点数量,因此更具一般性。此外共同邻居理论能够为该结构模块提供良好的可解释性。本文进一步提出CN-motif计数算法,该算法的时间复杂度不受CN-motif节点数量影响,能够快速计算CN-motif的频数。此外,本文通过系统的分析和实验,充分证明了CN-motif的有效性。基于CN-motif的图卷积网络模型:为了捕获结构模块信息,并解决差异图的表示学习问题,本文提出了基于CN-motif的图卷积网络模型CNMPGCN(CN-motifs Perceptive Graph Convolution Networks)。该模型首先根据CN-motif将每个节点的一阶邻居分组,并利用CN-motif提取高阶相关节点构建高阶图。为了显式编码邻域结构信息,该模型将每个组作为一个整体单独编码,为了区分组之间的差异性,本模型通过学习的方法为不同的组分配可正可负的权重。此外,该模型能够利用高阶图来聚合高阶信息。最后,本文通过全面的实验,充分验证了模型的性能,在结点分类任务中,该模型在多个数据集上取得当前最佳的准确率。
其他文献
近年来,深度学习技术飞速发展,尤其是在大规模数据集的推动下,分布式深度学习系统在学术界和工业界获得了广泛应用。分布式深度学习系统普遍采用同步数据并行来训练模型。同步随机梯度下降(SSGD)作为最常用的分布式同步数据并行训练算法,其在每次一迭代中都涉及网络通信。然而,通信开销在通信带宽受限的分布式环境中是昂贵的。为了降低通信开销,一种直观的方式是增大通信间隔,即不是每一次迭代中都进行通信,而是每隔若
学位
21世纪随着知识经济时代的到来,知识的产生、积累、传承与创新成为知识经济发展的核心要素,知识在主体方以及接受方之间的扩散可以促进知识的创新与再利用。图书馆学、情报学及档案学(下文简称图情学科)作为当代培养新型信息知识人才的重要学科,探究国内外图情学科知识扩散情况可以明晰学科发展特征、总结学科知识利用与创新的进程以及了解国内外图情学科发展差异,并为国内图情学科未来发展趋势提供借鉴意义。本文以文献间的
学位
近年来集成电路在各个领域中的应用越来越广泛,在政府相关政策的大力支持下,集成电路芯片制造技术的发展也越来越迅速,位居整个电子信息产业的核心地位。仅构建技术创新合作网络还远远不够,当前中国半导体产业已经在政府扶持下,度过了起步阶段并有了很大的发展,结合中国国情并从前期的发展态势中,对未来几年乃至几十年的发展趋势进行预测,根据研究结论对市场变更做及时调整,以达到最快实现实力赶超、在国际竞争中占据优势的
学位
随着人们环境保护意识的不断提升、对环境质量要求的日益提高,如何安全有效的处理污水将面临着新的挑战。利用太阳能的光催化技术(Photocatalysis,PC)具有高效、无二次污染的特点,是科研领域的研究热点。在一定波长的光照射下,半导体光催化材料会产生具有无选择性的氧化活性粒子(羟基自由基·OH、光生空穴h+和超氧自由基·O2-等),通过这些活性粒子可将污水中的有机污染物矿化成CO2、H2O等无机
学位
论证与建模是当前科学教育领域研究的热点。随着新课程改革的深入,“核心素养”体系的提出对学生建模与论证能力的发展提出了新的要求。模型建立与完善的过程也是不断论证的过程,将二者有机结合起来可以全面提升学生的核心素养。目前,国内对于论证式建模教学的研究较少,缺乏相关的教学策略。SNP(Science Negotiation Pedagogy,以下简写SNP)是一种整合建模与论证的教学模式,为我国开展相关
学位
随着信息技术和社交媒体的发展,以照片、图表、视频等为代表的视觉资源在当今社会受到了前所未有的重视,成为当下高中英语教材中的重要组成部分。《普通高中英语课程标准(2017年版)》首次提出看的能力的概念,反映出新媒体时代背景下作为看的载体的视觉资源在表达意义、传递信息方面的重要作用。在新课标的指导下,上海教育出版社和上海外语教育出版社分别修订出版了《普通高中教科书·英语(必修一至必修三)》并投入使用,
学位
学术机构的测评是信息计量学研究和应用的重点之一。本文在多维度引文分析的体系下,用多层嵌套的天际线算法观测和评价学术机构影响力,给出了多维度引文视角下面向学术机构的多维度影响力测评方案,该方法能在一定程度上规避单一评价维度、人为权重设定和数值体量影响等问题,契合了学术评价体系改革中多元化以及去绝对化评价的理念,也呈现出多维引文分析方法和多维排序算法的综合。在实证研究方面,本研究以Web of Sci
学位
自1992年Goldberg提出第一个邮件推荐系统Tapestry,并提出协同过滤的思想以来,用户的行为数据和基本信息等便成了推荐系统不可或缺的基底,而自推荐思想诞生以来,针对推荐系统也有很多棘手的问题,如推荐系统的冷启动问题(对于没有行为数据的用户无可推荐)、协同过滤算法相似度计算的数据稀疏度过高问题、推荐的准确性问题等。本文尝试在社区生活内容系统场景下解决上述三个问题,研究设计了基于用户行为的
学位
本研究关注在我国国际化学校中任教的中国籍教师的职业认同,旨在深入探究国际化学校中国籍教师职业认同的建构过程、内涵维度和影响因素。本研究以上海市六所国际化学校中的十二位中国籍教师为访谈对象,运用一对一半结构式访谈的方式收集到近十七个小时的访谈录音,访谈转录文本约二十一万字,借助扎根理论的三级编码方式处理访谈数据。结合社会认同理论,研究者将十二位中国籍教师的故事一一拆解,根据社会认同理论提出的个体认同
学位
随着数据存储能力的不断发展以及数据采集技术的日益进步,现实生活中生成并收集了大量的数据。通常来说,同一个数据对象可以存在不同的表现形式,这种类型的数据称为多视图数据。多视图数据中每个视图从不同的方面描述同一对象,因此包含了对象的不同特征信息。对于多视图数据,常用的单视图学习方法通常直接将所有视图串联成单一视图处理,然而当每个视图特征维度较大时容易产生过拟合,同时这种方式忽略了多视图数据的内在特性。
学位