模型驱动和深度神经网络结合的代码生成方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenshuae5b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字化浪潮推动互联网行业飞速发展,开发人员数量的增长速度远低于软件需求的增长速度。因此,研究人员和工业界将目光聚焦智能化编程,希望通过低代码的智能化编程极大地提高软件开发速度、效率和质量。现有的代码生成研究有两个重要的方法:模型驱动的代码生成方法和深度神经网络的代码生成方法。然而,前者需要复杂细致的建模才能得到功能上复杂的代码;后者难以生成结构性复杂的代码,这些问题限制着代码生成的发展。针对上述问题,本课题提出模型驱动和深度神经网络结合的代码生成方法,目前尚未查到将二者结合起来综合利用的相关研究,该方法是本文首次提出的。为了得到模型驱动生成的逻辑框架代码。本文提出了基于活动图的代码生成方法。选择活动图作为代码需求建模的图形,把建模后得到的活动图形式化,将其转化为对应的需求逻辑代码,同时给出生成Python代码的特定算法。采用动态编译运行的方式,测试生成的Python代码。为了得到深度神经网络模型生成的细节功能代码,本文提出基于Action序列深度学习的代码生成方法。将给定的自然语言描述通过深度神经网络模型预测其对应的Action序列,然后将其转化为Python代码。对于人工标注、代码粒度较小的数据集,在Co Na La数据集上BLEU提升到24.2%,在Django数据集上Accuracy提升至77.5%,明显优于目前具有代表性的方法。为了研究在已有大量知识可用的场景下的效果,本文提出信息数据检索增强的预训练代码生成方法,检索与自然语言描述相关的top-5代码片段微调PLBART预训练模型。在大规模、代码粒度较大的Text-to-code数据集上BLEU、Accuracy指标分别提升至17.68%、13.81%。分析发现检索得到的代码片段的相关性,会极大地影响预训练模型生成代码的正确性。同时,由于现有数据集的局限性,基于Action序列深度学习的代码生成方法在该类数据集上生成代码的质量较差。通过案例分析的方式,评估了模型驱动和上述两种不同深度神经网络相结合的代码生成方法,发现模型驱动和深度神经网络结合的代码生成方法可以降低模型驱动建模的复杂度以及神经网络代码生成的长距离依赖问题。另外,在人工标注、代码粒度较小的数据集上基于Action序列深度学习的代码生成方法更优;在大规模、具有大量已有知识可用的场景下信息数据检索增强的预训练代码生成方法更好。
其他文献
我国地理标志主要是在商标法体系下进行保护。当含有地理标志的标识被注册或作为商标使用时,地理标志使用权和商标专用权容易产生冲突。主要表现为商标在授权、确权过程中与地理标志的冲突,以及商标在使用过程中与地理标志的冲突。其争议焦点集中在两方面,一是地理标志能否适用商标的近似性判断标准,以及地理标志的混淆可能性;二是使用地名的行为是否属于描述性使用,以及地理标志产品如果符合产地、品质条件但未获得授权的行为
学位
医学图像分割技术是临床医疗的一种主要辅助方法,但对于医学图像来说,标注数据的获取通常是昂贵的。与自然图像相比,医学图像在分割任务中需要专业医生对其进行筛选和标注,尤其是含有多个器官组织的图像。为了减轻标记人员的工作量,近年来人们提出了许多半监督的学习方法,在减少标记样本数量的同时获得高性能的机器学习模型。另一方面,半监督学习利用少量标注数据和大量未标注数据的学习方式更加符合临床的实际需求,所以在医
学位
申克孢子丝菌复合体(Sporothrix schenckii complex)广泛分布于世界各地,目前发现该复合体包含七种基因型,分别是狭义申克孢子丝菌(S.schenckii sensu stricto)、球形孢子丝菌(S.globosa)、巴西孢子丝菌(S.brasiliensis)、墨西哥孢子丝菌(S.mexicana)、白孢子丝菌(S.pallida)、卢艾里孢子丝菌(S.luriei)、
学位
在华夏五千年文明的孕育下,纸张是中华民族精神文明的重要载体,更是炎黄子孙智慧的结晶。纸质档案以纸张作为载体的一种档案,最先产生在中国,东汉时就已经应用在文件撰写方面,直到如今我们仍然使用纸质档案,其优点较多,便于管理和利用。保护纸质档案是防止文明缺失的一种重要手段,委以吾辈重任。“生物退化”指由于生物的活动导致非生命物质的性质发生不利于人类需求的变化,即非生命物质的内在价值受到削弱。然而纸质档案受
学位
机器人技术在近些年来得到了不断的发展,在日常生活中的许多场景下已经存在机器人来替代人进行工作。导航和避障能力是智能化的移动机器人最重要的基本能力之一,在近年已经有研究出现,并开始在行人丰富的复杂环境探索。传统的机器人导航主要是用了SLAM技术以及控制规划方法。SLAM技术通过构建环境的地图,为机器人提供全局信息,在地图基础上调用规划方法生成机器人移动路径。这种方法对传感器精度以及构建地图的精度要求
学位
肺癌是具有高死亡率的恶性肿瘤之一,虽然目前人们对肺癌发生机制的了解和抗癌药物的开发有新的进展,但临床治疗效果仍不能令人满意。因此,有效抗肺癌药物的发现已经成为研究者所关心的热点。本课题选用的化合物RY-1-11是一种新型喜树碱衍生物,并且实验室前期研究结果显示RY-1-11通过影响Wnt/β-catenin信号通路显著抑制肺癌细胞的增殖和迁移,具有很好的抗肿瘤活性。同时,前期研究表明RY-1-11
学位
目的:代谢相关脂肪性肝病(Metabolic associated fatty liver disease,MAFLD)也称为非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD),是全球发病率最高的慢性肝病,全世界大约有四分之一的人深受该病困扰。MAFLD的预防和治疗主要依赖于饮食控制和运动干预,目前亟需开发新的和有效的治疗药物。AWRK6是基于东北林
学位
学位
淀粉样蛋白沉积疾病是由特定多肽或蛋白质聚集形成高度稳定的、具有细胞毒性的淀粉样蛋白纤维化沉淀所引起的。淀粉样肽β(Amyloidβ,Aβ)被认为是引起阿尔茨海默病(Alzheimer’s disease,AD)的致病蛋白。人胱抑素C(Human cystatin C,HCC)是一种广泛存在于人体的体液和组织液中的半胱氨酸蛋白酶抑制剂,可以抑制细胞外半胱氨酸蛋白酶活性。HCC可与可溶性的Aβ结合,研
学位
随着信息化技术的发展,在线课堂教育开始在信息化应用中崭露头角,但是在线教学中,学生课堂状态不佳和大规模翘课的现象已经对在线教学的发展产生阻碍,因此人们开始更加关注如何改善这种学生翘课的现象。但是,在线教学的相关任务的研究中,公开可使用的数据集和在公开数据集上进行的工作较少,数据集的问题阻碍着在线教育相关任务研究的发展。为了解决上述问题,我们构建了一个新的数据集,并提出了一种新的学生完课预测方法,通
学位