基于XML文档相似度与聚类相结合的代码抄袭检测研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户：Ericchn

【摘要】

：

目前，在这个信息化迅速发展的时代，随着计算机的广泛应用和互联网技术的普及，人们互相交流思想获取信息变得更加快速和便捷，抄袭现象也越来越普遍，手段也越来越隐蔽。在各个高校中

【作者】

：

贾胜颖

【机构】

：

内蒙古师范大学

【出处】

：

内蒙古师范大学

【发表日期】

：

2012年期

【关键词】

：

XML 抄袭检测可视化报告聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前，在这个信息化迅速发展的时代，随着计算机的广泛应用和互联网技术的普及，人们互相交流思想获取信息变得更加快速和便捷，抄袭现象也越来越普遍，手段也越来越隐蔽。在各个高校中，有很多非计算机专业和计算机专业的课程常依赖计算机进行考核和实践教学，从而导致作业中程序代码抄袭、克隆等现象越来越普遍。为了能够合理、有效的检验学生对所学课程的态度以及在课上的真实收获，就迫切需要一种能够检测代码相似度的工具来判断学生代码间是否存在抄袭。本文在深入分析目前国内外程序代码相似度研究的基础上，提出一种基于XML文档相似度与聚类相结合的代码抄袭检测方法。该方法包含以下五个步骤：①预处理。将待检测的源程序进行格式化处理并去掉一些对程序语义无关的内容，提取将C程序转化为XML文本时所需的特定程序代码标记字符串以及行号等属性特征，并将程序的关键结构信息与对应的行号匹配。②构建XML文本。将处理后的源程序转换成对应的XML文本。③计算相似度值。根据构建的XML文本来计算对应的文本的相似度结果。④聚类分析。根据程序的相似度计算结果和程序的特征属性，采用聚类分析的方法找出抄袭集群以及抄袭的“源头”。⑤汇总结果。根据程序相似度计算结果来生成对应的可视化检测报告，高亮显示出抄袭部分程序的具体位置等属性信息。在上述理论研究的基础上，设计并实现了一个基于XML文档相似度与聚类相结合的代码抄袭检测实验系统。实验表明，该系统能有效的检测出常见的抄袭现象，准确找到并显示抄袭部分的程序，并将待检测的程序按抄袭结构的不同分类，最终找到抄袭的“源头”。

其他文献

物流领域本体关系数据库的构建研究

本文的主要研究工作来源于河南省重点科技攻关项目(No.102102210409)“物流公共信息平台领域本体的构建”与河南省教育厅基础研究项目(No.2009B520014)“基于语义Web本体学习

学位

物流本体OWL关系数据库本体存储本体查询

上近似的近似信息挖掘及应用研究

粒计算（Granular Computing）是近年来智能研究领域中的一门新兴学科，是解决复杂问题和模拟人类思维的一种新方法。众多学者对该问题的兴趣以及各方面研究成果的出现，使得对其的研

学位

粒计算n阶粒划分上近似数据识别不精确推理

基于形状的非均匀光学层析图像重建算法研究

光学层析成像是近年来广为关注的一种新型医学成像技术。它以近红外光作为光源照射生物组织，对组织体的光学属性参数进行成像。由于组织的光学属性参数与组织中的血流量以及血

学位

光学层析成像扩散方程有限元形状重建算法图像重建

A Dissertation Submitted to Zhejiang University for the Degree of Doctor of Philosophy

随着图形硬件的飞速发展和虚拟现实系统、电影游戏制作等领域对高真实感图片的需求增加，关于高性能图形绘制技术的研究变得更加重要和迫切。高性能的图形绘制要求在保证绘制质

学位

加速结构光线跟踪图形处理器运动模糊并行计算图形绘制

网络安全状态演化动力学研究

随着计算机网络规模的不断扩大和应用的不断深入，影响网络安全和性能的因素变得越来越多，相互之间的关系也越来越复杂。如何使网络更加安全和稳定的运行已经成为网络管理者所面

学位

网络安全传播动力学同步动力学社团结构复杂网络

面向图像检索和分类的监督哈希方法研究

近年来,随着社会和经济的快速发展,互联网技术在我们的日常工作和生活中扮演着越来越重要的角色,而且随着电子设备和社交媒体的普及,多媒体数据(文字、图像和视频等)增长迅速

学位

哈希学习图像检索图像分类近似近邻检索

形态学联想记忆框架的泛化研究

联想记忆(Associative Memory,AM)是人脑的重要功能，是逻辑思维和形象思维、推理和创新的源泉。与传统的联想记忆模型相比，形态学联想记忆(MorphologicalAssociative Memories,

学位

形态学联想记忆框架泛化逆向方法对数和指数分组划分

基于深度相机的刚性物体典型运动特征重建

随着3D扫描设备的发展,用这些设备来获取现实生活中的物体的三维表面数据已经成为可能。尤其当微软的Kinect,华硕的Xtion,英特尔的RealSense等深度相机的出现,人们获取这些三

学位

深度相机RANSAC运动特征重建运动骨架构建

无线传感器网络分簇算法研究及NS2仿真

无线传感器网络(WSNs)是由大量传感器节点组成的,它们被部署在所需监测的目标区域。这些节点协作地感知和处理监测区域中的信息,即能够用来获取客观物理世界的信息。因此近年

学位

无线传感器网络路由协议分簇算法仿真分析

Vague集向Fuzzy集转化方法及其相似度量的研究

在处理客观世界中的事物时，人们原来就认为客观事物就是非此即彼，于是，Cantor于1874年创立了经典集合的理论。在经典集合理论中，经典集合中的任意一个元素要么在这个集合中，要么不

学位

Fuzzy集Vague集转化方法相似度量

基于XML文档相似度与聚类相结合的代码抄袭检测研究

其他学术论文