基于度量元的静态跨项目软件缺陷预测技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:cpingpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测是一个活跃的研究领域,它寻求有效的方法来预测给定软件项目中的缺陷倾向。软件缺陷预测技术通过挖掘源代码文件和一些开发文档,提取相应的度量来学习构建预测模型,然后对新的文件系统进行预测。往往一个新的文件系统没有足够的历史数据来训练模型,跨项目缺陷预测技术(Cross-Project Defect Prediction,CPDP)也就应运而生,它使用来自同公司的类似项目(源项目)作为训练数据建立预测模型,然后将当前的项目(目标项目)作为测试集预测模块中是否有缺陷。然而CPDP的源项目数据和目标项目数据之间的分布存在差异性,大部分的缺陷数据不仅有着复杂的数据结构而且有着显著的类不平衡的情况,基于以上问题,本文着手研究跨项目的软件缺陷预测技术中的难题,提高预测模型的预测性能。首先,提出了一种基于邻域保留嵌入典型相关分析的软件缺陷预测方法(NPE-CCA)。该方法先根据数据引力技术将目标项目样本信息传输到源项目样本的权重中,得到一个有关源项目样本的权重向量。再使用典型相关分析(CCA)对原本的源项目样本与目标项目样本寻找共同空间,使得数据预测之间的相关性最大化。最后经过邻域保留嵌入算法(NPE)降维保留数据的邻域几何结构并结合前面的权重矩阵加权得到最终的训练样本,在分类预测的过程中采用的是支持向量机的分类模型进行一对一跨项目软件缺陷预测。其次,提出了一种基于邻域保留嵌入核典型相关分析的软件缺陷预测方法(NPE-KCCA)。本方法主要是在NPE-CCA的基础上对于CCA方法引入核方法解决软件缺陷预测中非线性数据的映射问题,通过这种方法可以使非线性数据可分,进而大大的提高了预测模型的预测性能。最后,提出了一种基于代价敏感的迁移多核集成学习的软件缺陷预测方法(CTMKEL)。首先利用数据引力方法使源项目样本和目标项目样本的分布相似,再引入多核学习方法,对于每一个核函数都映射一次处理过的特征到一个高维空间,分别结合一个SVM分类器得到多个基于核的分类器。为了避免多核学习的参数复杂性,采用boosting训练每一个基于核的弱分类器,在boosting的权重更新过程中我们考虑到错误分类的两种代价,引入代价敏感矩阵。本文的实验数据集主要用的是NASA、ReLink和AEEEM这三个数据库,根据与对比算法的实验结果可以发现本文所提出的算法提高了分类预测模型的性能。
其他文献
生育关系着人类的延续,不少人也把生儿育女当做人生大事。在传统生育文化和国家生育政策的共同促进下,许多女性发出了“我想要个孩子”的呼唤。但是,随着生活节奏日渐紧张,生活环境逐渐变化,部分女性已经无法自然怀孕生子。此时,辅助生殖技术的出现给她们带来了希望,这一技术被誉为不孕患者的“新希望”。当前的研究主要从医疗技术出发关注影响受孕成败的因素,如何进行干预等。但是,女性在此过程中的具身体验以及身体受到来
随着阿里巴巴的B2B平台的不断发展壮大,原有的各种引流渠道能引流能力逐渐遇到了瓶颈。传统的引流方式,例如SEO和PPC,都受限于搜索引擎,引入的流量的数量和质量比较单一。平
铬是一种常见的重金属,具有广泛的工业用途,在矿山开采、金属冶炼、电镀、化学药剂生产等工业过程中都会排出大量的含铬废水。水中铬以Cr(Ⅵ)和Cr(Ⅲ)两个价态存在,其中Cr(Ⅵ)难以降解,其毒性较大而难于处理,对自然环境和人类社会造成了威胁。传统的处理方法主要包括物理吸附和化学沉淀,吸附法具有低成本、低污染、高吸附量的优点,得到了广泛应用。活性炭由于原料来源广泛且廉价易得,是吸附材料的极佳选择。虽然
近年来,随着光伏产业的蓬勃发展,全国太阳能级硅料产量已超过40万吨,据统计,将有40%的高纯硅料以亚微米级切割锯末的形式进入切割液中,如此大量细微的切割废料直接排放必然带
近些年来,百度作为全球最大的中文搜素引擎,拥有数千亿的中文网页数据库,每天的访问流量已经非常庞大。然而,随着互联网的蓬勃发展,用户的搜索产品也不断地变得丰富。为了帮
口腔种植义齿追溯其起源已有上千年历史,随着种植体设计的不断革新、外科技术的不断成熟以及人们生活水平和口腔保健意识的不断提高,近来口腔种植义齿已成为口腔常见修复技术。种植义齿的成功率取决于种植体与骨界面之间的良好整合过程,而该过程则需要种植区有足够的牙槽骨骨量。但在临床工作中,常见由于先天发育不足、外伤、肿瘤或拔牙后牙槽骨吸收、萎缩等原因造成种植区骨量不足,而无法满足种植手术适应症的患者。如何解决种
随着传统学院派历史陷入困境,公众史学兴起并迅速发展,史学界日益关注历史学如何走出象牙塔,打破专业壁垒,面向公众,融入公众。科学史作为典型的精英历史,应该自觉接受这一变
肝癌是致死率较高的癌症类型,而肝癌在中国具有很高的发病率,全球一半的肝癌患者在中国。在肝癌术前进行预后分析,病理医生通过观察肝癌组织病理图像,并结合患者情况判断患者的预后,从而制定针对性的治疗方案。由于肝癌病理图像结构复杂且信息丰富,而且病理医生人才稀缺,造成了医疗资源的紧张。使用机器学习辅助进行预后分析,可以减轻病理医生的负担,病理医生可以更加专注于患者的治疗,从而提高肝癌的治愈率。本研究使用图
为探究入侵植物加拿大一枝黄花(Solidago canadensis)和大狼把草(Bidens frondosa)传粉网络的地理变异。本研究2017和2018年的911月份在北京市、山东省、江苏省、江西省、安徽省、湖北省、湖南省、上海市、浙江省、福建省等样地开展实验,以加拿大一枝黄花和大狼把草及其周边显花植物为研究对象,调查两种入侵菊科植物的访花昆虫及其传粉网络,结合环境因子分析不同地域间传粉网络
创世史诗《牡帕密帕》是古老的少数民族拉祜族口耳相传下来的,群众基础深厚。主要在宗教活动中,传统节庆时或着农闲期间诵唱,是维系这个古老民族精神生活的纽带所在。《牡帕密帕》讲述了从宇宙混沌开始,天神厄萨造天造地,造物造人及人类最初始阶段的生产生活状态。国务院于2006年5月20日将《牡帕密帕》列入第一批国家级非物质文化遗产名录。《牡帕密帕》是拉祜族民间流传极广的创世史诗,它是集拉祜族的政治、经济、文化