基于特征选择的软件缺陷预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xuwei1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件测试是根据需求文档等,对被测试的软件通过人工或测试工具的方式,来检测软件是否满足预期的过程,在软件开发周期中起着重要作用,是确保软件质量的不可缺少的一个过程。软件测试的目的是发现软件中尚未发现的缺陷。越早发现的缺陷,缺陷造成的影响和损失就越小,其修复成本也越低。但是,在尽可能多地发现软件缺陷的同时需要降低投入成本和保证研发进度,手工测试的方法已经不能满足这种需求。软件缺陷预测技术可以利用历史数据预先辨别出可能存在缺陷的软件模块,针对缺陷高风险模块投入更多的测试资源,从而保障软件的质量和测试效率。目前的软件功能和规模的剧增,导致数据集有高维等特点,容易造成维度爆炸问题。而软件特征中存在无用的特征,在构建缺陷预测模型时不起作用甚至起到反作用,影响模型的分类性能。特征选择是指从已有的原始特征中选择少数最有效的特征,降低数据集的维度的过程。在缺陷预测模型中使用特征选择可以很好地剔除缺陷数据集中的无关和冗余特征,从而提高预测模型的分类能力。本文在特征选择方法的基础上,针对数据集中存在的无关特征和冗余特征,在集成的特征排序选择和聚类特征选择方面开展了一系列研究。本文研究工作的主要内容包括以下两个方面:(1)针对软件缺陷数据集中存在无关特征的问题,提出了一种基于集成的特征排序选择方法。首先是预处理阶段,以此提高数据质量,为下一阶段构建分类模型做准备。然后,根据基于3种特征排序算法(GR、CS和GI)的集成排序算法对特征相关性进行降序排序,然后根据百分比从已排序的特征集中选择特征子集,构建缺陷预测模型。通过实验验证使用少数特征比使用全部特征有更好的预测效果,而且基于集成的排序算法比单一的特征排序算法有较好的稳定性。(2)针对不能很有效解决缺陷数据集中存在的冗余特征的问题,提出了一种基于聚类的特征选择方法。根据K-Medoids聚类算法对特征进行聚类,将具有冗余关系的特征聚集到同一簇中。然后挑选出每个簇的质心和簇中与质心关联度最低的特征,最后选择簇中剩余特征中相关性高的前几个特征,构建预测模型。通过实验验证,同时考虑冗余性和相关性的特征选择算法比只考虑相关性的特征选择算法更有优势。同时对比了分类算法在不同规模数据集上的预测性能。以NASA的MDP数据集为实验数据,针对本文提出的两种方法进行了多次实验验证。实验结果表明,本文提出的方法对提高缺陷预测性能有较好效果。
其他文献
智能问答是指计算机通过分析用户提问,自动回答用户所提出的问题,是一种高级形式的信息服务。知识图谱本质上是一种围绕特定实体所构成的语义关系网络,由实体、概念以及它们之间的关系组成。将知识图谱拥有的丰富且庞大的现实世界知识注入智能问答模型中,将使智能问答模型的表示能力进一步提升,进而在面向事实型问答任务时,无论是用户意图的识别,还是问答中实体的识别都将更为符合现实世界的常识,从而从基础上提升智能问答系
小规模学校是乡村教育的薄弱环节,其中师资是短板。美国、印度、英国、法国、日本、韩国等均存在大量小规模学校,也曾面临师资困境。为了加强小规模学校的教师队伍建设,这些国家在保障教师数量、提高教师地位、促进教师发展等方面进行了有益探索,如按照工作量核定教师编制,提高教师综合待遇,建立教师发展共同体等,对我国乡村小规模学校教师队伍建设具有重要启示。
目的:探讨二步截骨联合生物型长柄假体植入治疗老年粗隆间骨折的疗效。资料与方法:回顾性分析2013年1月至2020年6月我院关节外科收治的74例老年粗隆间骨折患者。男性15例,女性59例,年龄67~98岁,平均年龄81.91±6.88岁。根据Evans-Jensen分类,I型1例,II型27例,III型12例,IV型25例,V型9例。47例(骨水泥组)使用骨水泥型半髋假体植入,27例(生物组)使用生
目的:肺癌是全球癌症相关死亡的主要原因,非小细胞肺癌约占肺癌病例的85%,许多非小细胞肺癌早期表现为磨玻璃结节(ground-glass nodule,GGN),20%-30%的GGN患者有一个以上的病灶。目前对导致单发和多发GGN的研究主要集中在治疗方案和基因水平的差异,二者病灶数量不同的机制尚不清楚,单发和多发GGN患者的血液学指标差异也未见报道。因为GGN病情进展或因为阅片过程中病灶不清楚而
近年来,汽车保有量逐年增加,寻找空闲停车位愈发困难,“停车难”问题日益严重。因此,在停车位数量无法大量增加的情况下,如何有效利用停车位资源成为目前研究的焦点。本文依托于吉林省科技厅重点科技研发项目“基于车联网的城市停车位智能服务平台的构建”,以校园为试点,在校园中模拟城市的情况。设计并开发校园智能停车系统,力图实现停车场的智能化。本系统采用热点技术与理念,将现有停车场智能化。首先,采用轻量级的Fl
在目前的工程应用与基础科学研究中,许多亟待解决的问题都可以被转变成求解最优化的过程。虽然传统的优化技术可以解决这些问题,但当问题变得更复杂更具挑战性时,它们便很难找到全局最优解。近几年来,随着计算机科学的发展,许多过去人类无法解决的复杂函数优化问题已经可以通过计算机来得到近似解。在求解过程中,人们创造了许多优秀实用的算法。元启发式算法作为一种随机优化策略,因为其能很好地解决复杂优化问题,所以它已成
中国互联网络信息中心2020年4月的报告中显示,我国上网的群众人数已超过9亿,互联网络的普及率也达到了60%以上。这一数据一方面说明了人民生活变得更加信息化,但另一方面也提醒我们的社会正在面临着一次前所未有的挑战,如何处理好海量网络文本信息成为了一个迫切需要解决的问题。如何使用自然语言处理技术(Natural Language Processing)分析海量的网络评论文本成为了研究人员的研究热点。
在计算机图像处理问题中,图像超分辨率(Super-Resolution,SR)采用数学模型计算的方式在尽可能保留图片原有纹理细节的情况下,将低分辨率(LowResolution,LR)图像转换成高分辨率(High-Resolution,HR)图像。研究表明,基于深度学习图像超分辨率方法的性能会随着网络宽度和层数的增多而提高,然而这些算法仍然面临一系列问题:1.单纯增加神经网络的深度或宽度会带来梯度
随着汽车行业蓬勃发展,出行面临的交通压力也愈来愈大,交通安全成为了人们关注的重点。分心驾驶是导致交通事故的重要原因,分心驾驶行为的检测已经成为图像分类领域中比较热门的研究方向。分心驾驶行为存在整体动态性不明显、动作变化幅度和动作空间较小的特点。如何在车内场景下,准确高效检测出分心驾驶行为已然成为分心驾驶图像检测的重点。目前分心驾驶图像分类大多采用传统CV算法或者深度学习方法,但是这些方法均存在以下
ICU具有治疗费用昂贵,死亡率高等特点,而目前国内ICU资源与发达国家相比较为匮乏,在此背景下国内近年来陆续诞生发展“AI+ICU”的智慧医疗企业,通过为医院ICU提供AI辅助诊疗服务可以实现患者病情早期预警、及时诊疗、防大于治,减少病人住院时长,降低治疗费用,加快病床流转率。作为辅助诊疗技术之一的ICU死亡率预测是一项在医学领域活跃了数十年的课题,患者ICU死亡率预测对患者的救援和ICU资源分配