面向文本的代码搜索方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ruoxich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网行业的高速发展和开源软件、开源社区的兴起,网络上出现了大量的代码仓库,特别是一些被高频访问的在线搜索网站,例如Github等,其中包含了大量供开发人员复用的代码和项目资源。当开发人员需要完成一个编程任务却不知道该调用哪些函数时,代码搜索与复用就成为了解决上述问题和提高软件开发效率的捷径。如何有效帮助开发人员从候选的代码库中搜索与指定编程任务相关的代码,已成为软件工程重要的研究领域之一。早期的代码搜索模型把代码看作文本词语,利用信息检索技术,将自然语言查询与候选代码的文本执行关键词匹配来查找目标代码。对于这类模型,只有当查询和代码之间存在一定数量的共有关键词时,才较可能搜索到匹配的代码。由于查询和代码互为异构语言,因此搜索效果往往不理想。近年来出现的联合嵌入模型,虽然用向量相似度代替了关键词匹配,却忽略了代码和查询之间的语义关联。为了挖掘二者之间的语义关联,本文将共同注意力机制引入代码搜索模型。同时,在共同注意力机制的基础上,对代码和查询实施两阶段注意力机制,通过提升表征学习的效率和质量进一步提升模型的搜索性能。本文的主要工作如下:(1)阐述了代码搜索的研究背景及意义,介绍了其研究进展,分析了现有代码搜索模型的局限性,提出了提升搜索性能的算法思路。(2)提出了基于共同注意力机制的代码搜索模型CARLCS-CNN。用卷积神经网络、长短期记忆网络实现代码和查询的嵌入表征,用共同注意力机制对代码和查询进行语义感知。该模型在一定程度上缓解了关键词失配的问题。(3)在共同注意力机制的基础上提出了基于两阶段注意力机制的代码搜索模型Tab CS。该模型以两阶段注意力机制为主体,代替了传统的深度学习嵌入结构。通过注意力机制过滤停用特征词,筛选语义关键词,借助两阶段的双重权重分配对代码和查询进行语义挖掘和交互。(4)在Deep CS、Deep COM、Code Search Net三个大规模开源数据集上分别对CARLCS-CNN和Tab CS进行了大量实验,通过实验结果进行分析,证明了本文所提的共同注意力机制和两阶段注意力机制的有效性。
其他文献
三峡水库周期性水位调度形成了30 m高程的水位消落带,使得该区域内的岩体产生了不同程度的劣化,对岸坡整体稳定性造成影响。另外库区蓄水后微小地震次数显著增加,微小地震动力作用对岸坡长期稳定性的影响不容忽视。本文依托国家自然科学基金面上项目“库区消落带岩体劣化条件下边坡静(动)力失稳机制及稳定性控制研究(41972266)”,以三峡库区巫山段消落带顺层岩质边坡为背景,研究其在多次微小地震下的稳定性,并
燃料电池效率高、无污染,是电动汽车的理想能源,但其动态响应较慢,功率特性较软,需将其与蓄电池或超级电容等新型储能设备相结合,组成复合储能燃料电池系统。目前,最具前景的复合储能燃料电池系统是由燃料电池、蓄电池和超级电容组成的三能量源系统。这种混合系统能充分发挥各部件优势,但同时会增加系统控制难度。另外较短的能量源寿命及高昂的系统生产成本是阻止其商业化的主要原因。本文以三能量源系统为研究对象,综合考虑
能源资源匮乏和环境污染问题已经随着全球经济的发展而变得越来越突出,以风能为代表的可再生能源快速发展逐渐成为解决这些问题的重要手段。风机将风能转化为机械能的过程会造成尾流风速下降和湍流度升高,为了充分利用风电场的空间,下游风机不可避免会处于上游风机的尾流区域,造成风电场的发电功率损失和风机疲劳损伤。因此对多风机尾流效应进行研究具有非常重要的意义。进行风电场的布局优化是降低风电场尾流效应的前期最有效方
全球化和城镇化建设进程的加快越来越侵蚀着地域文化赖以生存的环境,各地“历史文化厚土”和“城乡发展”存在着不同程度的脱节,重城市化建设轻人文建设,使得城市景观特色缺失。为了避免城镇化浪潮中“去历史、去文化”现象和“文化肤浅、文化趋同”等问题,如何通过景观展示地域文化,提升城市景观内涵、彰显城市特色、增强人们的文化认同感是本文研究的重点。新时代城市发展建设理念转型背景下,景观的文化价值日益凸显,通过地
仿生设计对于实现汽车轻量化具有很大潜力,仿蜂窝结构因其性能优良在汽车中应用增多。但采用普通铸造技术生产该类结构件时存在缩孔缩松缺陷,而采用切削加工方法时材料利用率较低,为了解决以上问题,论文提出采用冲锻成形工艺整体制造仿蜂窝薄壁结构。目前,关于仿蜂窝结构冲锻成形过程中金属流动模腔过程、变形体的应力应变分布以及缺陷的形成等尚未探明,对此论文主要开展了以下研究工作:(1)仿蜂窝结构冲锻成形过程中力学分
随着能源资源的紧缺和环境污染的加剧,汽车的排放污染问题越来越受到社会各界的重视,而汽车轻量化能够显著降低汽车的排放污染,减小能源的损耗,因此汽车轻量化逐渐进入各大汽车公司的视野。重型商用车在我们生活中的应用范围越来越广,其运输量已经占据了国内货运量的60%以上,其本身体积大、材料应用单一,质量也比较大,因此重型商用车轻量化受到行业高度重视。近年来,计算机仿真设计分析技术也逐渐应用到商用车设计领域,
住宅建筑空调能耗逐年攀升,迫使降低住宅建筑空调能耗成为建筑节能工作的重点。降低空调能耗的前提是需要充分了解空调能耗的特征,然而由于经济条件、气候条件、建筑形式、设备形式等的差异导致住宅建筑空调能耗在不同地区之间存在差异。因此,探究不同设备形式能耗影响因素,量化空调能耗的特征对于指导住宅节能是一项非常有意义的研究。本文首先从室外气象条件、室内用能行为、供暖空调设备以及围护结构出发,综述了国内外关于空
智能汽车的交通信号灯识别系统是其环境感知功能的重要组成部分。目前对信号灯识别方法的研究面临三大挑战:(1)场景内容复杂,环境条件多变导致信号灯识别准确性和鲁棒性降低;(2)信号灯识别缺乏语义信息,无法为车辆下一步控制提供信息;(3)识别准确性和实时性难以同时兼顾,无法适应实际工程需求。为了解决上述问题,本文提出了一种基于深度学习检测、聚合特征通道跟踪和车道级高精度定位的交通信号灯识别系统;搭建了基
随着汽车电子技术的发展和人们对交通安全的重视,各种车辆主动安全系统逐渐兴起,它们能让车辆适应各种行驶状态和道路环境以提高车辆的主动安全性能。现有的车辆主动安全系统主要针对车轮制动防抱死、驱动防滑转、横摆稳定性和侧倾稳定性中的某一项进行单独控制,或者其中两项进行简单的集成控制,不能同时满足各项主动安全性能需求。比如在转弯制动工况下,质心较高、轮距较窄的车辆将会同时面临车轮抱死、侧滑和侧翻的风险。为了
农业农村向高质量发展是我国当前乡村振兴的重要目标。我国作为陆地面积2/3均为山地的大国,近郊山村耕地不断受到侵蚀;远郊山村因复杂的立地条件,农业规模化、机械化、现代化发展困难或受城乡二元对立山区耕地撂荒和山村空心化现象严重,造成了山地乡村产业经济发展落后于平原地区,客观上这也是中国14个连片特困地区都是山地的原因,故探索山地乡村可持续发展转型途径尤显紧迫。论文立足于农业公园作为山地乡村高质量转型创