基于信息检索和Stacking集成学习的源代码抄袭检测

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:taohappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码编程是高校计算机等相关专业的必备技能,但互联网技术的发展使得代码抄袭问题日益凸显,小到学生的编程作业大到软件产品都或多或少存在。抄袭对于学生来说既不利于他们的发展和成长,也不利于他们能力的提升,而对于软件企业来说抄袭可能涉及到侵权问题。现有的研究中,大多数的源代码抄袭检测方法是针对小数量的代码库文档进行的,而且常用一对一匹配的方法进行抄袭代码对检测,随着源码数量的日积月累,常用的一对一匹配的源码抄袭检测方法在时间效率上会比较低下且准确度没有太高。针对这些问题,本文提出了基于信息检索(Information retrieval,IR)和集成学习分类的代码抄袭检测方法,旨在提高代码抄袭检测的效率和准确率。本文将IR和集成学习结合用于代码抄袭检测,主要工作如下:(1)提出了基于代码的抽象语法树(Abstract syntax tree,AST)和代码的域划分来检索潜在抄袭代码对的方法,并且提出了一种针对低匹配得分的代码对进行过滤的机制。首先将代码进行预处理,删除代码噪声;然后对代码进行解析,解析成AST;接着基于IR的域的思想,遍历AST并提取相应的域信息;根据提出的得分函数,计算每个域中的词的得分,并在检索潜在抄袭代码时根据域匹配来计算代码对的匹配得分;最后根据阈值过滤掉匹配得分低的代码对,获得最终的潜在抄袭代码对集合。(2)提出了一种计算代码对的相似度特征值的混合相似度计算方法和基于Stacking对潜在抄袭代码对进行分类的方法。对于代码对的特征,从词汇特征、结构特征和代码风格特征三方面来进行提取,其中,在结构特征提取中利用提出的混合相似度计算方法计算结构特征相似度,其余特征的相似度利用对应的相似度计算公式实现,从而获得代码对的特征集。将已知分类的训练集的特征集合放入基于Stacking的集成分类器进行训练,然后将潜在抄袭代码对的特征集合放入训练好的分类器中进行预测,得到最终的分类结果。最终,经过实验对比分析,分别对两个阶段的实验结果进行总结。在检索阶段,与JPlag基准实验及基于文本的IR实验和基于AST的IR实验对比可知,本文使用的基于域信息划分的IR技术是有效的,基于域划分的检索结果precision为0.9203,recall为0.9391,MAP为0.5360,这三个指标均高于其他对比实验的结果。在分类阶段,通过引入JPlag、IR+RF及IR+GDBC的对比实验,发现本文使用的IR+Stacking的方法precision为0.9266,recall为0.9012,F-score为0.9137,指标结果均优于其他对比实验的结果。最后对综合实验结果进行分析,首先在时间上,本文在潜在抄袭代码对检索和分类中使用的总时间为11小时左右,JPlag所用时间最短为3.5小时左右,而深度学习的方法用时最长为为72小时左右;其次在准确度上,本文使用F-score评价指标进行评价,本文方法的F-Score的值为0.9137,要高于JPlag的0.4469和基于深度学习的0.8933,因此本文的方法对于源代码抄袭检测是有效的。
其他文献
我国自1987年批准成立第一家财务公司以来,实体经营与金融的结合经历了初期、快速和规范三个阶段,在加强企业集团资金管理、增强企业集团融资、提高企业集团生产经营能力等方
高速列车车厢内的声环境影响乘客乘坐的舒适性,也是影响高速列车的进一步的提速的因素之一。CRH380B高速列车在三种特殊工况下(明线会车、单车通过隧道、隧道内会车)运行时,车厢内有较大的压力波动,此时,车厢内乘客舒适性降低,乘客往往会出现鼓膜受压、短暂耳鸣等。车厢内发生压力波动后,空气的密度发生变化,密度影响车厢内声场的响应。探究由于压力波动影响空气的密度发生变化,对车厢内的声场响应进行分析。本论文
地下开采引起地表沉陷是随时空间变化的连续过程。一般使用的静态地表移动变形规律,只是地表移动终止后的一个特例。要完善解决建筑物压煤开采的问题,需要预计开采过程中任意
随着稀疏理论的成熟及自然图像本身存在稀疏性的事实的发现,越来越多的图像分类开始基于稀疏表达模型,特别是在最近几年兴起的高光谱图像分类研究。高光谱图像因为其具有大量
1926年,李大钊根据北京大学订购的美国英文期刊《工人月刊》翻译了马克思专论中国的首篇文章《中国革命和欧洲革命》,先后发表了《孙中山先生在中国民族革命史上之位置》《马
目的探讨紫杉醇的遗传毒性作用。方法 Ames试验(试验设立8,40,200,1000和5000μg/皿5个剂量,同时设立自发回变组、溶剂对照组和阳性对照组。按平板掺入法在加与不加代谢活化系
会议
借助计算机技术的发展和不断应用,地图的表达媒介从纸质转移到了计算机,在方寸之间就能观察到整个城市、国家甚至地球的全貌。电子地图作为地图可视化的一种表现方式,相比传
近年来,环渤海港口企业之间竞争日益加剧。我国的港口企业在运营过程中一般都会采购储备大型设备的备件来应对各种维修,保证生产效率。目前秦港六公司采购业务消耗了公司大量的成本,产生了大量备件库存,但缺货影响故障维修的情况还时有发生,给公司的各项管理工作带来很大负担。因此秦港六公司迫切需要在高效保障设备运行的同时,减少采购成本和库存压力,提高企业自身的综合竞争力,适应新形势下的竞争格局。本文在秦港六公司采
证券企业在金融行业的发展突飞猛进,但是许多业务的处理及管理方式较为落后,信息化程度较低,未有效地使用科技手段处理企业的各项业务及管理流程,使得企业在各方面的业务处理
随着经济社会的快速发展和人们出行需求量的不断增长,交通拥堵已成为亟待解决的社会问题。实践证明:可变信息标志(Variable Message Sign,VMS)作为一种有效的群体诱导信息发布系统对于缓解交通拥堵、合理分配路网交通流量起到了不容忽视的作用。然而,VMS布设位置的选择缺乏系统、科学、合理的论证,如何合理布设VMS能够最大程度地实现路网交通流的合理诱导、其布设位置如何影响交通流分配等,都