基于代码相似度和机器学习的编程题分类及抄袭检测研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:qwerasd1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线测评系统的普及和推广,一方面给高校带来了教学和评估的便利,另一方面却也逐渐暴露出一些弊端,譬如它不能很好地给学生提供一些相似类型的题进行巩固,也不能依靠系统评判出学生偏于薄弱的知识点,并且代码抄袭在学业评估过程中也频繁发生。本文针对上述问题,提出了基于抽象语法树的编程题分类方法和基于XGBoost增量学习的代码抄袭检测方法。
  (1)对于基于抽象语法树的编程题分类方法,本文的研究内容有:首先,提取源代码的抽象语法树特征,通过GCC来构建AST,引入并改进AST结点信息的冗余消除和标准化算法,消除AST初始状态下存在的环;然后,优化传统的树编辑距离算法,使用树结构相似度算法对AST展开语义分析,求出AST树结构相似度;紧接着,提出并使用了题目集合的相似度矩阵来表示出两两编程题的AST树结构相似度,并基于K-Means算法对编程题相似度向量进行聚类,以实现对编程题的精准分类;最后,完成相应的数据分析和实验,寻找解决上述问题的解决方案。
  (2)对于基于XGBoost增量学习的代码抄袭检测方法,本文的研究内容有:首先,本文描述了教学评测系统下的代码提交记录的相关特征定义以及具体的算法实现,如代码相似度、代码风格相似度以及抄袭集中度等,针对这些相关特征,本文采用了高效的算法去实现和优化。之后,本文采用信息增益过滤掉一些相关性较弱的特征,并且采用Accuracy、Macro F1Score、AUC和ROC curve等性能度量指标对模型进行评估和选择。最后,本文采用XGBoost增量学习算法去优化系统实现,经过运行测试集数据,并验证测试结果,得出该模型准确率高达98.0%。
  (3)本文开发和实现了基于抽象语法树的编程题分类和基于XGBoost增量学习的代码抄袭检测的系统。结合OJ系统内的数据,本文对这两个功能分别进行了测试。测试结果表明该系统可为学生推荐相似题型以进行巩固学习,还能评判出学生的薄弱知识点,同时也能为教师检测出学生的抄袭代码。
  本文立足于机器学习理论算法,旨在全方位地展现OJ系统辅助教学的特点,并为基于在线测评如何提升学习成效的相关研究提供一定的参考和借鉴。
其他文献
云计算、移动互联网和社交媒体等技术的迅猛发展,使得网络空间中所蕴含的信息量呈指数级增长。作为缓解信息过载问题的有效手段,推荐系统得到了学术界和工业界的广泛关注,相关研究成果已经融入日常生活的各项个性化服务中。矩阵分解(Matrix Factorization,MF)模型因具有较高的预测准确度和良好的可扩展性,常被用于个性化推荐系统中。
  MF模型的优化方法之一是利用附加信息来提高推荐准确度,常用的附加信息是用户与产品的属性信息。针对已有相关研究主要考虑属性信息本身而忽略了属性之间的交互关系所带来的
【摘要】少数民族预科学生作为高等教育中一个特殊的学生群体,具有自信心不足、学习基础较差、贫困学生比例较高等特点,由于课程设置、考勤管理等原因,逃课现象已然成为各个少数民族预科学生培养和管理工作的瓶颈。本文以怀化学院预科学生为例,就逃课现象进行剖析,并提出具体的研究对策。  【关键词】少数民族预科学生 逃课 剖析 对策  【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(201
期刊
【摘要】作为一名思想政治课的一线老师,我们一直在探索思政课能力本位的项目化教学改革。在探索中我们发现实地考察,对这样的改革进行实地考察是相当有必要的。延安是中国的革命圣地,是著名的爱国主义教育基地,是每一位思政工作者都应该去了解学习的地方。延安实地考察对思想政治课项目化改革有着巨大的意义,首先丰富了课堂的一手资料,其次体现了项目改革的实践性,再次补充了思想政治课的项目设置。思想政治课项目化改革中我
期刊
随着互联网技术的高速发展,网络信贷业务以其审核迅速、放款门槛低等特点逐渐成为互联网金融领域的新秀。然而,网络信贷为用户带来便利的同时,也为信贷欺诈提供了可乘之机。当前信贷欺诈具有产业化、技术化的特征,如何有效地防范网络信贷业务的欺诈风险已经成为一个亟待解决的问题。目前信贷交易的欺诈检测,除了传统的专家系统规则引擎方式以外,主要是基于历史信贷交易数据,衍生交易特征,利用机器学习方法进行建模预测。然而,这些方法对于信贷交易间潜在的关联关系,没有进行有效的表征。因此,本文从以下三个方面展开研究:
  首先
热带气旋,又称作台风,是一种破坏力极强的自然灾害,对中国沿海地区造成巨大的灾难,对生命和财产安全产生严重的威胁。因此,精确地估计台风强度对于及时应对台风和制定防范措施有重要的意义。现如今台风的检测主要依赖于卫星遥感数据,中国发射的风云4号(FY-4)气象卫星可以采集高质量的多光谱云图,全面地反映台风的形态,而这类图像在台风定强领域还没有得到广泛研究。尽管基于卫星云图的台风定强算法已经取得了不错的成效,但大部分方法仍然基于主观和复杂的特征提取方法,泛化能力不强。针对上述问题,本文对深度学习方法进行改进,从F
【摘要】“文贵出新”,文章的“新”,是文章生命的“常青树”,是文章的魅力所在。这就要求语文教师在作文教学过程中,要努力培养学生的创新能力,指导学生写出在内容上具有时代气息、观点独特,结构上与众不同的文章。  【关键词】文章 作文教学 创新  【中图分类号】G633.34 【文献标识码】A 【文章编号】2095-3089(2016)03-0063-02  那么,“新”从何处来呢?试述如下:  一、“
期刊
【摘要】人文素质教育是当前我国高等教育发展中的重大问题,受到社会各界的广泛关注。在高等职业教育中,人文素质教育被重视的程度有所提高,但总体而言,重技能,轻人文的观念未得到根本转变。因此,在高等职业教育中重视人文素质教育,已经成为把“工具型”人才培养成“高素质技能型专门人才”的重要一环。  【关键词】高职院校 人文素质教育 实践与探索  【中图分类号】G71 【文献标识码】A 【文章编号】2095-
期刊
【摘要】进出口贸易实务课程作为国际贸易专业、商务英语专业中一门非常重要的专业课程,在培养合格的外贸人才方面起着不可低估的作用。然而,纵观各高职院校进出口贸易实务信息化课程的建设并不乐观,成为国家信息化课程的寥寥无几。数字资源共享课是国家信息化课程建设项目的继承和发展。要把进出口贸易实务课程建设成为一门对教师、学生、社会都有用的课程,需要做出一些新的尝试与改变。  【关键词】高职 信息化 进出口贸易
期刊
【摘要】阅读是搜集处理信息、认识世界、发展思维、获得审美体验的重要途径。在高中语文的教学中,提高学生的阅读能力及阅读理解的解题能力不仅是高中语文新课程标准的需要,更是学生参加高考的需要。本文笔者将从教学实践和高考命题者的角度从宏观答题的思路简要论述高中语文阅读理解题所考察的学生的能力及做答阅读理解题的技巧。  【关键词】高中语文 阅读能力 阅读理解  【中图分类号】G633.33 【文献标识码】A
期刊
【摘要】阅读教学作为小学语文的重要组成部分,是培养学生综合性语文能力的客观要求和重要途径。阅读的根本是在老师的引导点拨下,让孩子积极主动地走进文本自读自悟,老师和孩子们一起享受阅读,和“安静”一起“触摸”阅读的“春天”。  【关键词】兴趣激发 点拨引导 享受阅读  【中图分类号】G623.23 【文献标识码】A 【文章编号】2095-3089(2016)03-0064-02  小学阅读教学作为小学
期刊