基于深度学习的代码功能描述与代码的搜索方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:fobbvb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
早期的研究员们将搜索语句与代码中的文本内容和结构信息进行匹配以实现代码搜索的目的。考虑到自然语言描述中反映的高级查询意图与代码库中源代码的低级实现之间的不匹配问题,近年来有人提出基于深度学习技术将代码功能描述和代码内容通过神经网络模型映射到同一高维向量空间进行匹配。然而现有方法通常是以单次搜索为目标,假设开发人员能准确描述代码功能,从而搜索出精确的代码匹配结果。随着软件系统的规模和复杂度不断提升,开发人员面对新的开发需求时,很难一次性给出较为准确的代码功能描述,以至于需要进行多次代码搜索,在完善代码功能描述的同时搜索出更符合的代码片段。为了解决上述问题,本文做了如下工作:(1)从GitHub开源代码仓库中收集并构建了代码搜索数据集query2code,并用于之后的模型实验,其中包含的属性有代码注释(即代码功能描述)、代码片段、函数名称、API调用序列。(2)提出了一种两阶段代码搜索方法,该方法以query2code数据集为基础数据,将代码搜索划分为两个阶段,第一阶段以代码功能描述描述为输入,输出准确率较高的代码片段辅助用户完善代码功能描述,在第二阶段以代码功能描述、函数名称、API调用序列作为输入,搜索出较为精确匹配的代码片段。(3)针对不同搜索阶段的特点对主流模型改进,提出了新的基于深度学习技术的代码搜索模型。第一阶段代码搜索选择结构较为简单的CodeSearchNet,将编码器从RNN、Bag Of Word改为了双向LSTM结构。第二阶段代码搜索基于结构复杂的deep CS,编码多维代码特征,并添加Attention注意力机制更充分的挖掘代码多维特征的依赖关系。此外,使用code Bert预训练向量分别初始化两个模型的Embedding层,引入了外部语义信息。(4)在本文收集的query2code数据集上与主流模型进行实验对比,结果表明cd Search1模型在准确率(Accuracy)指标上相对于CodeSearchNet有5.79%的提升。cd Search2模型在平均准确率(MAP)和归一化折损累计增益(NDCG)上相比于deep CS分别取得了2.6%和2.4%的提升,验证了本文所提模型的有效性。(5)基于本文提出的两阶段搜索方法和代码搜索模型结合web技术设计并实现了一个代码搜索系统,旨在为研发人员提供更有效的代码搜索服务。
其他文献
<正>相对于西周玉龙纹饰的规范制式,春秋玉器龙纹饰丰富了许多,并且抽象化,符号化。以至于对初次看到春秋玉器龙纹饰的人来说,这些弯弯曲曲的线条和造型就像图案密码一般。所以对这一玉器题材作深入的剖析和解读,有助于读者对春秋玉器龙纹的了解,并对龙纹饰历史演变的研究有十分重要的价值。
期刊
社会评价是现代医院管理的一个重要组成部分,它通过对医院进行多种形式的评价,以达到对患者和职工的满意程度,从而实现对医院的全面管理。
认知控制的主要研究范式之一是任务切换。以往研究发现切换代价受到认知控制层级性的调节,但鲜有研究探索这一调节过程的动态神经机制。本研究通过嵌套的线索-任务切换范式考察不同层级任务切换代价的差异及其神经机制。在实验中,要求被试完成高低两种层级任务,低层级任务要求被试判断数字大小(或奇偶);高层级任务则须先加工数字的某一语义特征(如当前数字是否是偶数),然后进行大小判断。行为结果表明,高层级任务切换代价
目的 了解我国农村居家高龄失能老年人的日常生活照料需求满足程度,探讨其影响因素,为完善失能老年人长期照护服务体系提供参考依据。方法 基于2018年中国老年健康影响因素跟踪调查(CLHLS)数据,对2 369名农村居家高龄失能老年人进行描述性统计分析,采用卡方检验、多元有序逻辑回归分析日常生活照料需求满足程度的影响因素。结果 农村居家高龄失能老年人日常生活照料需求完全满足、基本满足、不满足的比例分别
目的 通过细胞免疫、体液免疫、单核巨噬细胞吞噬功能、NK细胞活性测定试验检验由植物乳植杆菌HEAL9和副干酪乳酪杆菌8700:2配制而成的复合益生菌粉对小鼠免疫力功能的影响。方法 将50只雄性BALB/c小鼠按体质量随机分为阴性对照组、阳性对照组以及益生菌粉低、中和高剂量组,每组10只,分别使用去离子水、转移因子口服液和相应浓度的益生菌粉进行灌胃给药,1次/d,连续30 d。实验过程中分别对小鼠进
在三教融合的时代背景下,宋代仕人于仕途罢黜或际遇浮沉之际,在思想上流露出明显的出处观变化。王安石出处观亦受道家隐逸思想和佛教世俗化影响,在执念于对事功追求之际,不绝如缕的隐逸情怀使其将“中隐”出处祈向作为自己行动的指针,同时认可在世俗官场修行佛法,不再将出处看作是截然对立的两面。因而,王安石在诗歌创作中多有“中隐”出处观思想点染,具体表现为前期诗歌的明出暗处和后期诗歌的明处暗出。
[目的/意义]探寻社交媒体类APP隐私政策的完善与优化策略,为用户个人信息的合规采集与利用提供参考。[方法/过程]基于技术接受模型(Technology Acceptance Model, TAM)从双重感知视角对30款社交媒体类APP的隐私政策进行可读性分析和主题识别。对标国内外相关法律制度,在分析感知易用性和感知有用性的基础上提出优化建议。[结果/结论]研究发现,现有社交媒体类APP隐私政策在
以智能算法为技术支撑的抖音已经成为人们认识世界和休闲娱乐的重要方式,但基于商业和用户兴趣的智能算法,并未满足用户所有的信息需求,用户陷入虚假信息、泛娱乐化、消费主义、算法焦虑等困境。面对智能算法在抖音平台的深度应用,关注抖音用户的困境迫在眉睫。文章基于抖音与用户的关系,从数字劳工的理论视角,分析智能算法下的抖音用户面临的困境,并提出突围困境的建议。研究发现,抖音的智能算法通过三种方式培养用户付出数
贵州省遵义—仁怀长岗向斜地区煤炭资源量大,煤层气资源丰富,但煤层气的系统评价工作比较薄弱,开发利用率较低。为全面分析、评价该区煤层气资源状况,在区内已有井田成果资料的基础上,通过地质填图、钻探水工环地质调查、工程测量、物探测井、样品采集及测试等方法手段,总结区内煤层煤质、围岩性质、水文地质条件和地质构造等地质特征,并对区内煤层气的赋存条件和分布规律进行分析研究。结果表明,(1)煤层气赋存的主控因素