预训练增强的代码克隆检测技术

来源 :软件学报 | 被引量 : 0次 | 上传用户:simetl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码克隆检测是软件工程领域的一项重要任务,对于语义相似但语法差距较大的四型代码克隆的检测尤为困难.基于深度学习的方法在四型代码克隆的检测上已经取得了较好的效果,但是使用人工标注的代码克隆对进行监督学习的成本较高.提出了两种简单有效的预训练策略来增强基于深度学习的代码克隆检测模型的代码表示,以减少监督学习模型中对大规模训练数据集的需求.首先,使用ngram子词丰富对词嵌入模型进行预训练,以增强克隆检测模型对词表之外的词的表示.同时,采用函数名预测作为辅助任务对克隆检测模型参数进行预训练.通过这两个预训练策略,可以得到一个有更准确的代码表示能力的模型,模型被用来作为克隆检测中的代码表示模型并在克隆检测任务上进行有监督训练.在标准数据集BigCloneBench (BCB)和OJClone上进行实验.结果表明采用两种预训练增强的模型仅仅使用极少量的训练样例(BCB上100个克隆对和100个非克隆对, OJClone上200个克隆对和200个非克隆对)就能达到现有方法使用超过6百万个训练样例得到的结果.
其他文献
城市社区养老,因兼具家庭养老和机构养老的优势,有利于整合利用社区资源,成为当前我国养老服务体系构建的重要选择。随着我国人口老龄化程度的加深,人们对于这一养老模式的需求日益增长。本文将城市互助养老与未来社区建设相结合,从调研宁波城市社区互助养老现状出发,了解老人参加社区互助养老的需求、探讨存在的问题。并以“未来社区建设为切入点”,深入探讨有助于加强社区老年人互动交流、远离孤独、快乐养老的城市社区互助
服从国家治理需要、提高审计治理效果、增强审计监督合力,是审计协同发挥资源整合作用的主要动因。构建宏观和微观层面的审计协同模式,是解决审计资源与审计全覆盖任务需求之间矛盾的有效方式。在阐述审计协同主要模式和作用的基础上,提出打破资源配置壁垒、搭建审计资源一体化信息平台、与外部监督形成合力、构建审计协同治理机制等,是提升审计资源效能的有效途径。
在黄陵和雪峰隆起及周缘含气页岩储层微观储集空间类型及其影响因素分析基础上,结合页岩气与煤层气解析曲线的对比研究,探索了中扬子地区寒武系页岩气赋存方式和富集机理。结果表明:(1)高演化页岩的原生基质孔隙均被沥青质体充填,高演化页岩气的微观储集空间主要来源于原生基质孔隙中沥青质生、排烃产生的次生孔隙以及构造活动产生的微裂缝;(2)高演化页岩气和煤层气解析曲线接近,证明两者具有相似的储集和流动特征,裂缝
在剪力墙结构住宅施工当中,现浇楼梯施工缝的"规范化"是施工质量管理的重点和难点,施工缝预留的位置及其施工技术控制,将会直接影响到施工质量,也会在一定程度上影响到建筑安全及使用寿命。本文根据现有的研究资料,分析了剪力墙楼梯施工缝的预留位置,提出可以将施工缝留设在楼层平台梁板之上,并阐述了其原因,并分析了此种施工缝的留设模式在施工当中应该注意的一些技术问题,希望能够对当前的住宅建筑剪力墙施工提供一些帮
为了深入探寻济南市主城区空气污染物特征,研究基于2019年济南市主城区7个国控自动监测点位的空气质量监测数据,分析PM2.5、PM10、SO2、NO2、CO和O3共6项空气污染物时空特征,并对相关性进行研究。结果表明:浓度季变化,PM2.5、PM10、CO、SO2和NO2呈正“U”型曲线,O3呈倒“U”型曲线;浓度月变化,PM2.5、PM10、CO、SO2和NO2呈开口向上波动性抛物线,O3呈开口
文章围绕人工智能重塑图书馆创新进行探讨,包括重塑过程应顾及人类固有的道德、伦理、尊严与人格之权利保障,重塑内容应该是技术与制度等多角度的,并且重点关注如何处理好图书馆创新与“以用户为中心”服务理念内涵关系的方法。最后,从《人工智能创新发展道德伦理宣言》中,进一步发掘人工智能重塑图书馆服务创新的路径,以及发展人工智能在图书馆智慧服务中的价值引领。
生态城市建设是实现城市可持续发展目标的重要举措。选取西安市及其13个区县的面板数据,实证分析后发现:西安城市生态化水平呈现明显的空间依赖性、集聚性与稳步提升趋势,中心城区优于外围区县趋势明显,其生态城市建设逐渐由空间集聚模式转向空间溢出模式和空间均衡模式;各区县常住人口增长有利于城市生态水平的提升 ,当常住人口超过100万时,其生态改善红利将逐渐减弱;13个区县的城市生态化水平存在σ收敛、绝对β收