一种基于迁移学习的程序语法纠错模型

来源 :南京大学 | 被引量 : 0次 | 上传用户:wlg1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
程序语法纠错任务是目前的一个研究热点,现有的方法主要是使用上下文无关文法和深度学习相结合的模型来提高纠错的准确率。深度学习模型在语法纠错任务上取得了越来越好的结果,但模型也变得庞大、复杂,导致模型训练速度慢。在监督学习方法中,复杂模型的训练需要大量的已标注修复动作的错误代码,而目前没有合适的自动化标记语法错误的方法,使得可用的真实数据集较少。迁移学习可以从相关领域中迁移标注数据或知识结构,改进目标领域的学习效果。预训练模型是迁移学习的一种常用方法,在自然语言处理和计算机视觉领域已经取得了广泛应用。本文使用深度学习方法,提出了一种代码预训练模型,并将预训练的代码编码模型迁移至程序语法纠错任务中,得到一种基于迁移学习的程序语法纠错模型。本文的主要贡献有:1.针对语法纠错任务中存在的数据量少、模型训练慢、泛化性差等问题,本文提出一种代码预训练模型。预训练模型分为生成器与编码器两部分。生成器是一个遮挡语言模型(Masked Language Model),负责过滤代码中存在的简单语法错误,生成自身难以解决的复杂错误。编码器是一个基于不完全语法树的代码编码模型,将代码视为语法树和token序列的结合,编码代码的文本和结构化信息。编码器的编码层可以迁移至其他代码相关的任务中进行微调,共享学习到的程序语言知识。本文在Deepfix数据集上测试了多种预训练方法的效果,证明了预训练模型的有效性。2.为了进一步验证预训练的基于不完全语法树的代码编码模型的效果,本文提出一种基于迁移学习的程序语法纠错模型,将代码编码器的编码层迁移至程序语法纠错任务中。除了迁移的编码层之外,本文额外添加了语法纠错任务对应的输出层,预测语法错误位置,从字典和输入序列中生成修复动作。模型采用迭代的方法逐个修复代码中的多个错误。本文使用Deepfix数据集训练并测试了该语法纠错模型。与未预训练的程序语法纠错模型相比,使用预训练的语法纠错模型取得了59.51%的纠错准确度,解决了测试集中的56.02%的错误信息,同时提高了修复代码结构化错误的比例至44.70%。
其他文献
本文以实际交通采集数据为基础,建立交通车辆大数据平台,在对车辆数据进行标准化处理后,通过车辆大数据平台,完成车辆信息检索、定位,实现城市车辆流量分析统计,并进一步实现
五氯酚钠是一种有机氯农药,在自然环境中降解缓慢,可通过饲料等途径进入家禽体内并产生蓄积,从而导致蛋类食品中出现残留现象,对人体的危害极大。目前,我国国标仅有肉类食品
甲烷是最主要的温室气体之一,甲烷含量的不断增加已经引起全球学者的广泛关注,甲烷对全球气候的影响显得尤为重要。近十几年来,地质甲烷释放研究不断深入,地质甲烷的源与汇逐
采用高压套阀管法,利用膏状浆液、混合稳定浆液和普通水泥浆液体系,成功地解决了阳江核电平堤水库架空回填层和天然覆盖层控制性灌浆难题,保证了平堤水库长期、安全、稳定运
绿色离子液体是指以生物阳离子和生物阴离子组成的离子液体,胆碱氨基酸离子液体([Ch][AA])是以生物碱胆碱(Ch)为阳离子,氨基酸(AA)为阴离子的一类离子液体,此类离子液体完全由生物材料合成,其毒性小,生物亲和力好,被视作一种“绿色离子液体”。本文合成了胆碱氨基酸离子液体,并将其应用于目标分析物的分离分析,主要内容包括:1.合成胆碱丙氨酸离子液体[Ch][Ala],建立双水相萃取-高效液相色谱
近年来,随着运算能力的提升和卷积神经网络的发展,计算机在目标跟踪任务中准确度和速度已经得到很大提高。然而,由于热红外图像具有分辨率低、缺少细节纹理信息、背景杂波强等特点,红外行人精准快速跟踪任务仍存在一定困难与挑战。由于基于孪生结构网络和相关滤波算法的跟踪器在可见光目标跟踪挑战中取得了较好的跟踪结果,本文将候选区域孪生网络跟踪器(Siamese region proposal network,Si
作为一种“节能减排、低投高效”模式,循环农业已经成为世界各国农业发展的趋势,我国也通过构建循环农业国家发展标准与技术模式,大力推广循环农业系统建设。但如何更好地协调循环系统社会、经济、生态效益,特别通过对循环系统经济性、循环性、生态性的评估,发现存在的问题与不足,从而形成完善系统、提升效率的优化方案,对循环农业健康发展无疑十分重要。有鉴于此,本文以辽宁省田园生态科技园的“猪-沼-菜”循环系统为研究
性激素依赖性疾病(Sex hormone dependence disease)——子宫内膜异位症、子宫腺肌症(病)、子宫肌瘤等是妇科常见病,特别是子宫内膜异位症,不仅发病率高,且有恶性肿瘤样种植
会议
随着社会经济的快速发展,传统的精确数已经很难解决现实决策问题。模糊集概念的提出为我们研究不确定信息打开了新的视角,引起了学者的广泛关注。基于模糊集理论,学者们相继提出了直觉模糊集、毕达哥拉斯模糊集等概念。毕达哥拉斯模糊集是基于直觉模糊集的进一步拓展,相较于直觉模糊集,毕达哥拉斯模糊集在表征不确定信息方面容纳性更高,在刻画模糊多属性决策问题上适用性更强。因此,众多学者运用毕达哥拉斯模糊集来研究多属性
在我国油田企业面临资源储量下降的背景下,只有不断加强绩效管理,用绩效管理保证“人”的活力的方式提升管理水平,才能提升整体运营效果,以适应改革与发展的需要。目前原油开采项目长期以来缺乏科学的绩效管理手段,导致基层效率低下,员工积极性不高,总体统筹能力差,采油企业集约化、扁平化、精益化发展必然路径要求有与之相匹配的科学绩效管理体系相适应。DJ采油厂致密油项目中针对绩效管理主要是三个维度,即业绩考核、能