大规模代码克隆的检测方法

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:fj123521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码克隆检测在剽窃检测、版权侵犯调查、软件演化分析、代码压缩、错误检测,以及寻找bug,发现复用模式等方面有重要作用。现有的代码克隆检测工具算法复杂,或需要消耗大量的计算资源,不适用于规模巨大的代码数据。为了能够在大规模的数据上检测代码克隆,提出了一种新的代码克隆检测算法。该算法结合数据消重中的基于内容可变长度分块(content-defined chunking,CDC)思想和网页查重中的Simhash算法思想,采用了对代码先分块处理再模糊匹配的方法。在一个包含多种开源项目,超过5亿个代码文件,共约10 TB代码内容的数据源上,实现了该算法。通过实验,比较了不同分块长度对代码克隆检测率和所需要时间的影响,验证了新算法可以运用于大规模代码克隆检测,并且能够检测出一些级别3的克隆代码,达到了较高的准确率。
其他文献
随着温室效应的加剧,传统汽车受到挑战,电动汽车成为最有发展前景的新能源汽车之一,本文对电动汽车电池管理系统上位机进行设计,以LabVIEW2013软件为开发平台,对电池管理系统
<正>《中学语文》2014年第6期刊载了严爱军老师《高峰体验理论观照下的精神宴游——透视〈前赤壁赋〉中苏轼的情感特征》一文。严老师认为:《前赤壁赋》在体式上借鉴了汉大赋
提出了一种适合于使用短波电台组建无线数据传输网络的方案 ,并根据此方案设计了基于 DSP芯片的系统硬件和软件。实验证明该系统完成了组网的功能
概率安全评估是系统安全性工程的一项重要内容,是合理决策和改进设计的基础.本文对现有文献中的概率安全评估方法进行了总结、分类,对各种方法的建模框架进行了阐述,并指出了
<正>众所周知,在高中语文教学中,阅读教学占有极其重要的地位。《普通高中语文课程标准》"阅读与鉴赏"中讲到:中学语文教学要使学生"在阅读与鉴赏活动中,不断充实精神生活,完
<正>各地践行高效课堂的举措轰轰烈烈,在改革的浪潮中我也担当一名水手,加入其中。经历了由刚开始的考察学习、模仿实施、逐步探究到现在的深入贯彻阶段,我的心情也由刚开始
河北是一个文化资源大省,但文化产业发展相对滞后,而影响河北文化产业发展的主要障碍就是文化企业面临融资难问题。以政府扶持、股权融资(风险投资、战略投资)和债权融资(个
<正> [通用名称]Idebenone,艾地苯醌[异名]羟癸甲氧醌,羟癸醌,阿文
为满足未来供电模式优化需求,箱变的应用将呈逐步提高趋势,而欧式箱变适用于对供电要求相对较高的场合。本文介绍了本企业欧式箱变优化设计的各类措施,通过对结构及产品一、
机器人在军事侦察、扫雷排险、防核化污染等危险与恶劣环境中以及工业自动化生产的物料搬运上应用很广,随着任务复杂性的增加,对移动机器人的要求也越来越智能化。然而,功能