基于代码属性图的代码预训练模型

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:whnbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展与普及,软件数量不断增多,软件的的规模和复杂度也在大幅增加,软件的开发、维护以及重用的难度也随之大大提高。程序理解是程序进行分析、抽象、推理的过程,在软件开发的各个环节发挥重要作用。通过程序理解充分挖掘出程序中的隐含特征,将代码抽象为特征向量从而应用于代码补全、代码纠错、代码克隆检测等下游任务,能够助力于软件工程、计算机教育等领域。深度学习是一种数据驱动的端到端的方法,在大规模数据上构建深度神经网络挖掘数据中隐含的特征。近年来,深度学习技术取得了长足的发展,开源软件与社区的发展提供了大量代码数据,这使得将深度学习应用于代码相关任务变得可行。许多程序理解工作针对特定任务展开,依赖有标签数据集,且难以泛化到其他任务。代码预训练模型能够自监督地在无标签数据上挖掘代码的语义规律,生成代码的通用表示,在微调之后应用于不同的下游任务。目前的代码预训练模型大多基于自然语言处理的预训练模型演化而来,少有考虑代码特有的结构信息。为此,本文基于代码属性图提出一个了图上的代码预训练模型CPGCode,设计了三个预训练任务共同学习代码属性图的特征表示。围绕上述研究内容,本文的主要贡献如下:(1)设计了一个基于图神经网络的代码预训练框架:该框架将代码抽象成代码属性图之后,采用门控图神经网络作为编码器来传递顶点信息并学习顶点表示,通过自注意力机制聚合顶点信息生成图的表示,通过多任务学习结合三个图预训练任务来自监督地挖掘代码语义信息从而生成代码的通用表示向量。(2)设计了一种代码属性图的子图划分算法:代码属性图能够捕获代码中更丰富的结构信息,因此本文选择将其作为代码的中间表示。进一步地,在代码属性图的基础之上,设计了一种子图划分的算法,结合边的属性以及拓扑排序将代码属性图划分为若干个子图,并在此之上实现了聚合子图生成新图的算法,以便应用于后续的预训练任务。(3)设计了三个考虑代码特性的图预训练任务:其一为属性遮掩,通过邻域结构预测被遮掩的点与边的属性;其二为子图预测,预测子图是否出现在代码属性图中;其三为边重建,预测子图之间的连通性。这三个预训练任务涉及代码属性图的点、边、子图三个层次,能够结合点与边的属性特征以及图的结构信息,学习出代码片段更通用的表示。综上所述,本文提出了一个代码预训练模型,基于门控图神经网络对代码属性图进行编码,并设计了属性预测、子图预测和边重建三个子任务,通过多任务学习来自监督地学习代码表示,最后将其应用于四个不同的下游任务。
其他文献
轨道交通站点周边的综合开发如何平衡轨道交通建设、运行、维护的成本,支撑以公共交通为导向的城市空间集约化发展,这是站点地段空间形态整合设计中的关键议题。南京的轨道交通场站周边综合开发已经起步,并处于从轨道设施建设与站点周边土地开发各自为政的开发模式,转向地铁公司,政府,开发商等多方协同合作的开发模式的新阶段。在这一转型发展的时期,需要明确参与各方的驱动力和利益冲突,探索新的机制设计方式,以解决协同开
学位
近年来,许多学者关注领导风格对员工行为的影响,激烈的市场竞争亟需一批敢于冒险、善于创新、不畏风险的员工,授权型领导方式越来越受到青睐,这种新型管理方式也受到学者的重视。科研人员是企业科技创新的关键力量,创新是企业维持竞争力,提高综合实力的创新的源泉,对其管理方式更合适鼓励式和支持式,但目前关于授权型领导对员工的影响存在一定分歧,关于授权型领导对科研人员的创新行为影响尚未定论。本文通过收集、整理并总
农药残留和真菌毒素就是在农产品中两类典型的污染物,对人类健康和社会环境构成了严重威胁,已成为全世界共聚焦的重大安全问题。因此,开发快速、灵敏的农药残留及真菌毒素检测方法对保护人类健康和社会环境有着重要的意义。近年来,利用电化学传感器来检测农产品中的污染物的研究越来越多。其中,修饰材料的选择对提高电化学传感性能是至关重要的,碳基纳米杂化材料因其优异的电化学性能备受关注。本文通过自组装方法制备了系列碳
武功山位于江西省中西部,海拔1918.3 m。武功山高海拔地区有着大面积的山地草甸,且在海拔1600 m左右分布着明显的灌草交错带,作为灌丛群落和草甸群落的过渡区域,交错带从生态学角度而言具有脆弱性和敏感性。选择三个不同坡向的分布有灌草交错带的坡面作为研究区,将灌草交错带界限处定为坡位1,并沿坡面向上,每隔20 m设置一个坡位。东向坡面的坡位1~3为下坡区域,坡位4~7为中坡区域,8~10为上坡区
学位
诺奖得主J.M.库切作品中关涉的动物伦理问题,是国内外库切研究学界关注的热点。近年来,从共情的概念着手探讨伦理意蕴,正逐渐成为一个重要的研究趋势。本论文从共情、同情、同情想象的关系出发,对库切的小说《等待野蛮人》、《耻》、《伊丽莎白·科斯特洛:八堂课》进行文本分析,剖析库切作品中的人与动物伦理关系,旨在揭示共情在库切动物伦理中的作用。论文包括引言、主体、结论三个部分。引言部分包括研究背景、研究综述
具身认知观认为一个人的身体、行为、感知和情境都参与于我们的认知过程中。根据具身认知观,人们能在语言理解过程中自动地激活感知运动系统,强调感知运动系统在语言理解中起着重要作用。具身效应是指身体或环境变量对人类认知加工的影响。以往的具身效应相关研究证明了字面语言的加工中存在具身效应,却较少关注隐喻中是否存在具身效应。此外,大多数字面语言的相关行为研究采用动作-句子一致性效应证明了动作语言理解与动作之间
吡啶结构广泛存在于天然产物、药物分子、生物活性分子、有机催化剂和配体中。用廉价易得的原料多样性地合成这些化合物具有重要的应用价值和研究意义。本论文分别以简单易得的单环1,2,3-三嗪与酮或乙腈衍生物为原料,在碱的促进下通过串联的亲核加成反应高效地构建多取代吡啶。通过改变底物类型的方法,能以正交的方式较好地在吡啶C2、C3、C5和C6位引入取代基,解决吡啶不易官能团化的难题。不但为相关药物分子及活性
过去,对于城市空间形态的建设,都是国外有好的理论和范式,我们就迁移过来,小街区也是如此。但实际上并不能完全实现。空间形态模式的形成,与其社会制度发展的阶段和社会大环境是密切相关的。它代表了一定社会制度下特定社会的人们的特定需求在物理形态上的表达,其内部必然有自发逻辑隐匿其中。单纯的移植其他国家好的模式,由于其内在构成逻辑不同,并不能解决实质性问题。在当前城市由增量扩张向存量更新的发展过程中,为了城