面向相似代码分析的多元化特征提取技术

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:wsdadoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛使用及互联网的快速发展,软件系统渗透到日常生活的各个方面。由于代码形式化的语言特点,导致信息之间的抄袭和剽窃现象层出不穷。尤其在面对代码规模量大,迭代多等情况时,仅仅依靠人工检测几乎是无法完成。因此,代码相似性检测技术应运而生。该技术的操作对象主要为程序特征,即能够代表程序内容和含义的基本单元结构。所以程序特征的准确性对检测结果至关重要,其优劣程度将直接影响检测结果的准确性。本文提出了一种面向相似代码分析的多元化特征提取技术,该技术综合考虑了程序的统计属性、结构、执行路径及数据流等因素。从属性计数、结构和功能三个方面进行特征提取,并建立开源程序特征库。本文首先提出了属性计数特征、结构特征和功能特征的定义。然后具体分析了每种特征的特性及模块设计,给出了相应的提取思路。最后基于缺陷检测系统,给出了每种特征提取的相关算法,同时为了提升相似代码分析的效率及存储统一化,提出了特征码的相关概念及生成算法。本文提出的多元化特征提取技术已实现并集成在缺陷检测系统中。通过对5个开源程序实验结果的分析,该方法提取出的特征准确率为84%,符合设计预期,为程序相似性检测提供了更精确、更多元的技术支持。
其他文献
本文主要研究了几种带有扩散的海洋浮游生态系统的时空动力学问题,探讨了生态系统中的一些热点问题,得到了部分重要结论。第一章绪论部分主要介绍了海洋生态种群动力学的研究
该实训平台的研究是根据以能力为本位、以就业为导向,紧密结合生产实际和职业岗位的技能要求,按照职业教育的教学和实训要求而建设的。通过该平台可完成简易型机器人产品的设
选取中巴资源一号卫星(CBERS-1)CCD数据南京幅典型地区作为研究区,其范围为1 262×1 295像元区域.通过分析不同水体在不同波段的光谱特征,及山区阴影对水体提取的影响,提
目的:掌握本医院急诊观察室的主要病种。方法:对医院2012年2月至5月共计1 920例观察病例进行描述性分析。结果:症状和体征的异常、呼吸系统疾病、血液及造血器官疾病免疫机制
目的 探讨医学影像学中实训教学改革的意义.方法 分析医学影像学实训教学中现存的不足.就教学的理念、授课方法、课时分配、网络建设及考核制度等方面提出改革意见和建议.结
目的:结肠癌的淋巴道转移是最常见及最基本的转移方式,很多临床观察已经证实,结肠癌患者的生存期与癌细胞的转移有明显的相关性。阐明结肠癌淋巴道转移途径可以为制定更有效
音乐训练是一种由多感觉器官参与的强化活动,涉及听觉、视觉、躯体感觉、注意、记忆及执行功能等相关认知系统的参与。为证明音乐训练是否对没有经过系统音乐学习的幼儿执行
[目的]NPM1(Nucleophosmin1,核仁磷酸蛋白1)基因突变是急性髓系白血病(acute myeloid leukemia,AML)中常见的基因突变之一。研究表明,NPM1突变的AML患者有相对独特的临床特点
本文研究一般Lévy型算子的遍历性及其相关问题,分成五部分。第一部分,我们给出一维Lévy型算子常返、正常返和指数遍历的充分条件。这些条件建立在同扩散算子的比较和广义生
背景和目的: 缺氧诱导因子-1(hypoxia inducible factor,HIF-1)是存在于哺乳动物和人体细胞内的一种介导缺氧适应性反应的转录因子。研究发现,它普遍存在于人类的多种肿瘤细