基于集成学习的软件缺陷预测研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:chengshisanren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷的发生是因为开发人员在进行程序编写时对需求没有正确理解,开发人员缺乏经验或者开发过程不合理都会产生软件缺陷。而含有缺陷的软件系统在运行时可能会导致严重的后果,甚至带来不可磨灭的损失。由此,软件缺陷预测技术成为当前国内外研究的热点。目前的研究通常将缺陷预测的实现形式化为一个机器学习问题,很多机器学习技术被用于缺陷预测。然而,现有的缺陷预测方法在实际应用中还存在许多问题。例如,这些方法的性能不够稳定,在高维数据情况下(如存在大量冗余、无关的度量元),预测精度不高,而在实际应用中高维数据是很普遍的。另外,由于有缺陷类(又称“正类”)通常远少于无缺陷类(又称“负类”),即缺陷历史数据具有类别不平衡性,容易造成预测模型更倾向于负类,从而降低了正类的预测精度。本文针对软件缺陷预测所存在的问题,进行了系统研究。主要研究工作如下:(1)过采样与集成学习方法在软件缺陷预测中的对比研究。针对软件缺陷预测中类别不平衡问题的处理,研究如何将数据层面的不平衡处理方法与算法层面的不平衡处理方法有效地结合在一起,从而获得更好的缺陷预测性能。重点考查 RandomOverSampler、SMOTE、Borderline-SMOTE、ADASYN这四种过采样方法,以及Bagging、Random Forest、AdaBoost、GBDT这四种集成学习方法。通过将上述过采样方法与集成方法两两组合在一起来进行缺陷预测,从而比较这些组合策略在处理软件缺陷预测中不平衡问题上的性能优劣。在多个NASA数据集上的实验表明:过采样方法ADASYN与集成方法GBDT的组合能够为软件缺陷预测中不平衡数据的处理提供最有效的结果。(2)基于混合采样的随机森林算法及其在软件缺陷预测中的应用。针对缺陷预测中的类别不平衡问题,提出一种基于SMOTE与K-modes聚类的混合采样技术HSSKM,并将该技术与传统的随机森林算法结合在一起,从而得到一种基于混合采样的随机森林算法HSRF。HSRF算法首先对不平衡的缺陷预测数据进行混合采样,即利用SMOTE对有缺陷样本进行过采样,并利用K-modes聚类对无缺陷样本进行降采样,从而得到一个平衡的数据集;其次,在这个平衡的数据集上,HSRF进一步利用Bootstrap抽样和随机子空间方法生成多个训练集,并在每个训练集上构建一个CART决策树;最后,将所有决策树通过给定的投票策略集成在一起,从而得到一个随机森林。通过在NASA数据集上的实验表明,HSRF算法能够显著提高有缺陷样本的预测精度,从而有效处理缺陷预测中的类别不平衡问题。(3)基于特征选择与Bootstrap抽样的决策森林算法及其在缺陷预测中的应用。针对缺陷预测中的特征选择问题,提出一种基于条件信息熵与随机子空间的特征选择算法FSCERS,并将该算法与Bootstrap抽样结合在一起来改进传统的随机森林算法,从而得到一种新的集成学习算法,即基于特征选择与Bootstrap抽样的决策森林算法DFFSBS。DFFSBS算法首先运用Bootstrap抽样方法对数据集进行抽样,从而得到多个抽样集;其次,运用FSCERS算法对每个抽样集进行降维,从而得到多个降维后的抽样集;第三,将每个降维后的抽样集作为训练集,并在每个训练集上构建CART决策树;最后,将所有的决策树根据给定投票策略集成在一起,从而得到一个决策森林。通过在NASA数据集上的实验表明,DFFSBS算法能够有效降低软件缺陷预测数据集中的属性维度,从而提高缺陷预测效率。
其他文献
“物资意义的幸福生活,仅仅是一个指标;而真正的幸福是内心感到安定和对职业的认可与奉献。”(《于丹〈论语〉心得》)一位内心安定和对职业怀有认可与奉献的班主任,其幸福感不仅在
从学理上来说,类型研究是一种将形态特征相似的对象组合分辨出来,并通过对象分类来达到对事物深入认识的过程。通过对两部类型电影的分析显示,成功的类型电影需坚持以一个类
动态型问题是近几年来中考命题的热点题型之一,且大都以压轴题的面目出现,题目灵活多变,能够全面考查学生分析问题和解决问题的综合能力,有较强的选拔功能,也是学生学习感到比较困
殖民地时期,英属新英格兰出口及转运贸易的日益繁荣,形成长期的市场有效需求,推动该地区经济分工的发展,在各个殖民地之间,以及单个殖民地内部区域之间,都形成了明显的经济分
过去的教学更多关注的是学生是否掌握了大纲要求的知识和技能,教学评价主要是终结性评价,即学生的考试成绩,忽视了学生的学习过程和情感心理品质。新课程的评价更加关注学生的学
研究背景:研究发现无论是成人[1]或是儿童[2],口唇部的畸形都会对心理产生不良影响。很多不良的软组织侧貌跟错颌畸形密切相关。越来越多的正畸患者的就诊原因趋向于矫正错颌
近几年,农村加快了合班并校的步伐。因此,中心学校的各年级都进了一批新生。坐在办公室里,每每听到班主任们发牢骚。“哎,新并来的这部分学生,什么都跟不上,真急人。”“是呀,不是自