基于XML文档相似度与聚类相结合的代码抄袭检测研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:Ericchn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,在这个信息化迅速发展的时代,随着计算机的广泛应用和互联网技术的普及,人们互相交流思想获取信息变得更加快速和便捷,抄袭现象也越来越普遍,手段也越来越隐蔽。在各个高校中,有很多非计算机专业和计算机专业的课程常依赖计算机进行考核和实践教学,从而导致作业中程序代码抄袭、克隆等现象越来越普遍。为了能够合理、有效的检验学生对所学课程的态度以及在课上的真实收获,就迫切需要一种能够检测代码相似度的工具来判断学生代码间是否存在抄袭。本文在深入分析目前国内外程序代码相似度研究的基础上,提出一种基于XML文档相似度与聚类相结合的代码抄袭检测方法。该方法包含以下五个步骤:①预处理。将待检测的源程序进行格式化处理并去掉一些对程序语义无关的内容,提取将C程序转化为XML文本时所需的特定程序代码标记字符串以及行号等属性特征,并将程序的关键结构信息与对应的行号匹配。②构建XML文本。将处理后的源程序转换成对应的XML文本。③计算相似度值。根据构建的XML文本来计算对应的文本的相似度结果。④聚类分析。根据程序的相似度计算结果和程序的特征属性,采用聚类分析的方法找出抄袭集群以及抄袭的“源头”。⑤汇总结果。根据程序相似度计算结果来生成对应的可视化检测报告,高亮显示出抄袭部分程序的具体位置等属性信息。在上述理论研究的基础上,设计并实现了一个基于XML文档相似度与聚类相结合的代码抄袭检测实验系统。实验表明,该系统能有效的检测出常见的抄袭现象,准确找到并显示抄袭部分的程序,并将待检测的程序按抄袭结构的不同分类,最终找到抄袭的“源头”。
其他文献
本文的主要研究工作来源于河南省重点科技攻关项目(No.102102210409)“物流公共信息平台领域本体的构建”与河南省教育厅基础研究项目(No.2009B520014)“基于语义Web本体学习
粒计算(Granular Computing)是近年来智能研究领域中的一门新兴学科,是解决复杂问题和模拟人类思维的一种新方法。众多学者对该问题的兴趣以及各方面研究成果的出现,使得对其的研
光学层析成像是近年来广为关注的一种新型医学成像技术。它以近红外光作为光源照射生物组织,对组织体的光学属性参数进行成像。由于组织的光学属性参数与组织中的血流量以及血
随着图形硬件的飞速发展和虚拟现实系统、电影游戏制作等领域对高真实感图片的需求增加,关于高性能图形绘制技术的研究变得更加重要和迫切。高性能的图形绘制要求在保证绘制质
随着计算机网络规模的不断扩大和应用的不断深入,影响网络安全和性能的因素变得越来越多,相互之间的关系也越来越复杂。如何使网络更加安全和稳定的运行已经成为网络管理者所面
近年来,随着社会和经济的快速发展,互联网技术在我们的日常工作和生活中扮演着越来越重要的角色,而且随着电子设备和社交媒体的普及,多媒体数据(文字、图像和视频等)增长迅速
联想记忆(Associative Memory,AM)是人脑的重要功能,是逻辑思维和形象思维、推理和创新的源泉。与传统的联想记忆模型相比,形态学联想记忆(MorphologicalAssociative Memories,
随着3D扫描设备的发展,用这些设备来获取现实生活中的物体的三维表面数据已经成为可能。尤其当微软的Kinect,华硕的Xtion,英特尔的RealSense等深度相机的出现,人们获取这些三
无线传感器网络(WSNs)是由大量传感器节点组成的,它们被部署在所需监测的目标区域。这些节点协作地感知和处理监测区域中的信息,即能够用来获取客观物理世界的信息。因此近年
在处理客观世界中的事物时,人们原来就认为客观事物就是非此即彼,于是,Cantor于1874年创立了经典集合的理论。在经典集合理论中,经典集合中的任意一个元素要么在这个集合中,要么不