面向海量开源代码的高效克隆检测方法研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：Aweichunxing890620

【摘要】

：

随着开源软件的蓬勃发展,软件复用已经成为开源软件开发的重要手段。大量的粘贴复制和修改,会在软件项目之间产生大量相似的代码片段,即代码克隆。这种现象很大程度上是人为

【作者】

：

庹峰

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

开源软件软件复用代码克隆检测 CopyCat 码云

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着开源软件的蓬勃发展,软件复用已经成为开源软件开发的重要手段。大量的粘贴复制和修改,会在软件项目之间产生大量相似的代码片段,即代码克隆。这种现象很大程度上是人为的并且有益于软件开发利用的,但也可能对软件的质量产生负面效应。代码克隆在软件内部会对软件的可维护性和一致性产生潜在威胁,在不同的软件项目间会产生漏洞传播、未授权的抄袭等危害。对软件中潜在的代码克隆进行检测,将会面临代码克隆种类多样化。代码克隆检测场景多样化以及大规模软件中海量的潜在代码克隆等巨大挑战。本文主要针对项目间海量代码克隆的抄袭检测问题,聚焦代码克隆检测效率对已有代码克隆检测方法并进行改进优化。在此基础上,本文实现了高效可扩展的项目间海量开源代码克隆抄袭检测服务工具CopyCat,为开源项目间的代码查重和版权维护打下了坚实的基础。主要内容如下:(1)实现了对已有代码克隆检测方法的分析评估和循环并行优化利用大规模的代码克隆检测基准BigCloneBench,从适用性、可扩展性和资源占用等方面对现有代码克隆检测方法进行测试分析,筛选出性能优异的NiCad和CloneWorks。经过优化,删减NiCad在项目间检测时不必要的项目内检测,在不改变检测结果的基础上极大地降低了检测时间。在CloneWorks中通过比较,选取最优的代码解析处理方法;利用项目名标记扩展CloneWorks,实现了项目间的代码克隆检测;在代码解析转换和结果转化报告阶段进行并行优化,极大地提高了程序执行效率。(2)设计了项目间多粒度多编程语言项目的克隆检测自动适配方法面向项目间多语言大规模代码克隆并发检测场景。针对软件项目间可能存在多种程序语言的问题,设计了自动匹配四种程序语言和多语言并发克隆检测的机制;针对大规模代码克隆检测问题,设计了预估代码规模、分配资源并选择适当检测方法的机制。针对用户对代码克隆检测的场景需求,引入代码克隆检测相关参数的选择机制以满足用户需要。(3)设计实现了面向海量开源代码的项目间代码克隆检测系统与开源中国的码云平台合作,在支持多语言、大规模代码克隆检测的场景基础上,整合码云社区广泛的开源项目资源并进行平台优化,在精简代码克隆输出报告的基础上,设计了用户查询相似代码片段内容的机制,对代码克隆检测结果进行可视化展示。同时整合Gitee IDE,用户可直接对代码进行在线编辑提交。

其他文献

交直流电压表量值的检定及数据比对分析

随着电子科学技术的发展,对测量仪器的精度和功能的要求也越来越高,而对电压表的测量要求更为突出。本研究将就交直流电压表量值的检定及数据比对展开探究,对类似比对活动提

期刊

比对路线测量能力不确定度

面向21世纪课程教材—“现代植物生理学”的编写思路和多媒体课件的研制和演示

<正> 在教育部资助的“面向21世纪农林本科生物系列课程教学内容和课程体系改革与实践(04-10)”的研讨过程中,参研的6个学校合编了面向21世纪课程教材“现代植物生理学”(高

会议

改善中职学生数学成绩的视觉化教学策略研究

随着时代的发展,信息技术也开始融入了数学教育研究中,此时出现了许多动态数学教育软件。这些软件集成了数学对象的视觉化表征,促进了数学学习中视觉化表征的研究。运用文字

学位

中职学生数学表征视觉化教学策略

面向海量开源代码的高效克隆检测方法研究与实现

其他学术论文