基于排序学习的代码检索

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:zeone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件工程师在开发过程中会耗费大量时间针对编程语言特性、API使用规范、算法实现等诸多内容进行搜索。而随着现代软件开发规模的增大,代码检索(Code Retrieval)在软件开发过程中的重要性也随之增大。新手开发者和学生能够通过代码检索工具进行学习,富有经验的开发者也能通过代码检索工具加快开发进度。代码检索研究领域属于软件工程与信息检索研究的交叉领域。代码检索旨在提供与符合用户意图的代码片段以增强现有代码复用(Code Reuse)能力,具有较高的实用价值;同时,解决程序语言与自然语言之间匹配的鸿沟一直是相关研究的重点。本文主要贡献如下:1)代码检索研究综述:本章以时间线为线索,针对代码检索研究近二十年间相关研究进行综述,通过分析近十年间发表于顶会、顶刊的代码检索研究文献,梳理代码检索研究与软件工程、自然语言处理相关技术的联系和区别,总结相关技术,为后续研究提供借鉴。2)融合文本特征的排序学习模型:本章从文本表示角度出发,结合软件工程领域相关背景,提出一种基于多级语义相关性表示模型的特征抽取方法。通过构建领域特征研究自然语言与程序语言匹配性问题,并结合排序学习模型在P@K、NDCG等指上对特征体系有效性进行评估。3)基于代码表示的深度匹配模型:本章在深度文本匹配模型基础上,提出针对程序语言与自然语言联合建模的源代码深度匹配模型,并在此基础上构建深度代码检索系统。经过相关实验验证,基于源代码深度匹配模型的代码检索模型能够取得较好结果,同时摆脱对精标注数据的依赖。4)代码检索系统:为了从实践角度验证前两个章节研究的有效性,结合前两章研究成果,在检索算法有效性(Effectiveness)研究的基础上,针对系统可用性(Availability)进行进一步探究,构建代码检索应用系统。
其他文献
“循环”问题一直都是隐藏在哲学家的哲学体系中非常有意思的问题。哲学家费希特在《全部知识学的基础》中写道:“一个哲学体系,如果根本不注意这种循环的反复,它就是一种属于独断论的观念论”。“循环”是费希特哲学的基线(baseline),只有理解了“循环“才能真正进入费希特的哲学体系。通过“循环”,费希特建立了他的知识学。他的知识学是一切科学的科学。他创立知识学的雄心是致力于重新为知识奠定坚实的基础。知识
不锈钢材料性能优良,外观精美,广泛应用于制造业各个领域。通过熔盐电解扩散和水溶液电沉积两种方法制备了碳钢/不锈钢梯度材料,并对NiO的溶解度,Cr(Ⅲ)和Ni(Ⅱ)离子的电化学还原机理、电结晶机理进行研究,应用SEM、EDS、XRD、辉光放电光谱仪(GDS)等技术对所得试样的组织和性能进行表征。750℃时,采用等温饱和法研究了NiO在NaCl-KCl-NaF-Cr_2O_3熔盐体系中的饱和溶解时间
火烧油层是提高原油采收率的重要方法之一。在稠油火驱采油过程中,电点火技术是通过地面控制系统向电点火装置发热元件输送电能,产生油层点火所需热量,其热量通过空气压缩机注入的空气带入油层,从而点燃油层的技术。电点火技术具有安全性高、点火成功率高、温度可控制等优势。但是,现有的电点火技术存在热量利用率低、电点火装置尺寸过大等缺陷,导致电点火装置不易下入和起出油井,造成很大的经济损失。为此,本文研究了电点火
气象雷达起源于上个世纪中期,经过了几十年的发展,如今已成为天气预测,灾害预防等领域最重要的工具之一。当前,最新型的气象雷达为多普勒脉冲雷达。它利用发射、接收电磁波并根据反射波的强度生成气象雷达图像数据。过去,利用传统方法对气象雷达图像数据进行处理在效率与准确性上都存在一定不足。随着近年来人工智能技术的发展,利用深度学习技术对图像数据进行处理的方式已经得到了越来越广泛的应用。深度学习技术通过设计特定
毕达哥拉斯模糊集是直觉模糊集的一种有效拓展,能更好的表达决策信息。作为一种新兴的直觉模糊集,毕达哥拉斯模糊集的相关研究需要进一步完善。本文对毕达哥拉斯模糊集的相关性质以及毕达哥拉斯模糊数在多属性决策中的应用进行了研究。(1)首先考虑隶属度和非隶属度的相互影响,定义了不同毕达哥拉斯模糊数之间的运算公式,讨论了相关性质。(2)针对已有的记分函数和准确度函数的不足,在考虑了支持、反对、犹豫三方面信息之后
城市化进程中的乡村文化危机一直是困扰着改革开放后国人的一大问题。青少年逃离乡土,对故乡的疏离感,导致一代人甚至是很多代人乡土文化情感的缺失。乡土文化教育不仅仅是热
形式概念分析理论(FCA)也称概念格理论,形式概念分析研究的基础是形式背景,行为对象,列为属性的布尔型二维表可表示形式背景。由对象与属性的二元关系可建立一种概念层次结构,可用于概念排序、概念推理及概念表示。形式概念分析作为一种有效的数据分析工具,广泛应用于诸多领域。决策形式背景的属性约简是形式概念分析的重要研究内容,基于经典概念格的决策形式背景属性约简有决策规则的约简,粒约简,强协调约简等等。三支
该研究旨在了解大学生父母教养方式、孤独感和学校适应的基本情况以及三者的关系,并基于相关性研究,针对性地设计降低大学生孤独感主题的团体辅导,探索提高他们的学校适应的有效途径。本文由相关研究和干预研究两部分组成,研究一采用父母教养方式问卷、UCLA孤独量表和大学生学校适应问卷对747名大学生进行问卷调查,以收集到的数据检验三个变量间的关系模型,验证孤独感在父母教养方式与学校适应间的中介效应。基于研究一
学位
微震技术已广泛应用于煤岩动力灾害监测预警、油田压裂、边坡稳定性分析等领域。由于监测环境的复杂性及仪器自身局限性,实际监测到的矿山微震信号在采集、传输过程中受到了
近年来,遥感影像的空间分辨率不断提高,数量级达到了分米级,在高分辨率遥感影像中,地面信息更加丰富,其中建筑物是地表信息中的重要组成部分之一,如何快速准确地提取影像中的建筑物一直是研究的热点问题。传统的建筑物提取算法主要是通过对像素光谱信息的处理以得到目标地物,但是,由于遥感影像数据量巨大,更新速度较快,目视解译与基于像素的提取方法已不能满足实际需求,需要探索提取高分辨遥感图像信息的新方法。深度学习