【摘 要】
:
随着软件系统在现代社会中越来越普遍,如何避免软件缺陷所带来的影响从而保证软件系统的稳定运行也越来越重要。软件缺陷预测可以利用目标项目数据来预测软件系统中哪些部分可能存在缺陷,工程师在此基础上合理安排保证软件质量的有限资源就可以极大地减少缺陷对软件系统的影响。在目标项目可用数据不足的情况下,跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)已经成为了一种预测软
论文部分内容阅读
随着软件系统在现代社会中越来越普遍,如何避免软件缺陷所带来的影响从而保证软件系统的稳定运行也越来越重要。软件缺陷预测可以利用目标项目数据来预测软件系统中哪些部分可能存在缺陷,工程师在此基础上合理安排保证软件质量的有限资源就可以极大地减少缺陷对软件系统的影响。在目标项目可用数据不足的情况下,跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)已经成为了一种预测软件缺陷行之有效的方法。从本质上讲,跨项目缺陷预测是将迁移学习算法与分类器相结合,借鉴与目标项目类似的项目数据,以此来帮助预测目标项目中存在的缺陷。然而,要建立这样的模型是一件很具有挑战性的事情,因为很难确定迁移学习器和分类器的正确组合及其最优的超参数设置。在本文中,我们提出了一个工具,称为BiLO-CPDP,即利用双层优化的方式来解决跨项目软件缺陷预测模型的参数选择问题,这里的参数包括迁移学习器和分类器的组合,也包含了他们相对应的超参数。据我们所知,它是第一个从双层优化的角度来尝试进行自动化发现跨项目缺陷预测模型的工具。双层优化以分层的方式对两个嵌套的问题进行优化。上层优化的目的是寻找迁移学习器和分类器的正确组合,而嵌套的下层优化的目的是优化相应的超参数设置。为了在每个层次都能找到最优的参数,我们在尝试了多种优化算法之后,在上层使用禁忌搜索来进行组合问题的求解,在下层使用TPE算法来求解代价高昂的超参数选择问题。为了评估BiLO-CPDP,我们在20个项目上进行了实验,将其与21种现有的CPDP模型,以及它的单层优化变体和Auto-Sklearn(一个前沿的自动化机器学习的工具)进行比较。实验结果表明,在70%的项目中,BiLO-CPDP发现的模型比其他21种现有的CPDP模型都具有更好的预测性能,并且在所有情况下都明显优于Auto-Sklearn及其单层优化变体。此外,在BiLO-CPDP中,独特的双层表示方式还允许将更多的预算分配给上层,这样大大提高了性能。总的来说,通过自动化选择模型相关的参数,BiLO-CPDP实现了跨项目软件缺陷预测模型的自动化发现并且在大多数情况下发现的模型都比现有模型预测性能更好,为今后跨项目缺陷预测模型的构建指出了一条不同以往的道路。
其他文献
在“大数据”时代,互联网上每天都会产生海量数据,造成“信息过载”问题。“信息过载”问题是指人们在获取自己感兴趣的信息时,因为面对的信息过于繁杂,很难找到自己真正需要的信息。推荐系统是当前应对“信息过载”问题最有用的方法之一,在诸多领域都发挥着重要的作用。协同过滤推荐算法作为当前使用范围最广的一种推荐算法,可以对用户的历史行为记录进行统计和分析,从而挖掘出用户偏好以及物品属性,为用户提供更精准的个性
传统数据管理方式是每个管理域独自管理自己管辖区内的数据,不利于如今大数据时代的信息共享,跨管理域数据共享变成一个迫切需求。传统的数据共享需要第三方的机构,统一管理数据、维护数据,这种模式存在一个问题,需要参与数据共享的数据提供方绝对的信任第三方数据管理机构是可靠的,遗憾的是,数据提供方并不能完全信任第三方机构,使得数据提供方缺少数据共享的主观能动性,阻碍了数据共享的进一步发展。为了解决上述传统数据
装修机器人的推广应用是房地产行业提质增效、解决人力资源短缺的重要手段,同时,3D点云是一种获取环境信息的重要数据形式,在机器人、自动驾驶等领域应用广泛。有效理解环境语义信息是装修机器人工作的基础,3D点云数据的语义分割方法研究具有重要的理论价值和现实意义。由于点云数据的非结构化特性以及获取成本高,传统点云处理技术的研究局限于单一领域,点云深度学习研究方兴未艾,现有方法通用性不强,难以实现装修机器人
行人重识别是计算机视觉领域中的研究热点之一,通过指导智能视频监控自动地从不同摄像头中匹配相同行人的图片,在帮助公安机关追踪犯罪分子轨迹、大型商超分析顾客购物意图等方面发挥着重要作用。但是,目前行人重识别还存在着诸多挑战,受到摄像头视角、人体姿态等因素的影响难以一次性查询到所有的正确结果,表现良好的模型迁移到新场景、新领域时准确率会严重降低。本文利用深度学习方法提取行人图像的深度特征,并且针对上述问
随着中国互联网的发展和普及,视频应用的需求得到爆发式的增长,手机直播、网络视频等成为重要的传播媒介和新的互联网经济增长点。无线视频传输是移动互联网时代视频传输的主要方式之一。然而,在无线传输的情景下,移动智能设备能源和无线传输信道都是非常紧缺的资源。现有的解决方案分别是从视频编码和传输协议设计来对无线视频的传输进行优化,但是,现在广泛应用的视频编码方案的帧内预测和帧间预测算法的计算代价过高,对于计
农田水利工程是当代农业发展的根本动力,关系着我国农业能否长远稳定发展,同时对农田水利建设稳定用水、实现水资源利用最大化具有十分重要的作用。然而,笔者在调查中发现,目前农田水利工程规划设计中存在工程规划设计前期没有实地勘察、设计与实际情况差异较大等一系列问题。基于此,笔者深入分析了农田水利工程规划设计中存在的问题,提出了加大施工前的实地考察力度、科学分析农田水利灌溉规划设计、强化农田水利工程的监管力
随着信息化社会的逐渐深入,云计算技术作为计算机领域的前沿技术之一,也在逐渐迈向成熟。在云计算模式中,为用户提供各种服务的通常为虚拟机集群,这些虚拟机是通过虚拟化技术切割物理机产生的。虚拟机集群由云平台统一管理,按需分配的模式不仅简化了管理人员的工作流程,也使资源得到了充分利用,更是推动了桌面云和应用云的普及。用户只需要在本地终端安装云客户端便可借助远程桌面协议轻松访问云端的应用资源和桌面资源。云客
随着知识图谱越来越受到大众的欢迎,各大公司都在争先恐后地把自己的数据存储到图数据库引擎上,与此同时,数据的分析与挖掘也慢慢变得重要了起来。然而对数据的挖掘需要使用大量不同类别的数据进行交叉分析,而不同类别的数据就涉及到了由不同团队负责维护的数据,通常情况下这些数据并不在同一台服务器上,甚至使用了不同的数据库来存储这些异构数据。如果对这些数据进行挖掘则要将这些数据整合起来进行分析。然而,很少有完善的
由于深度学习模型的准确率大大提升,近年来在很多领域发挥了重要的作用,保持高准确率的同时如何提升模型的鲁棒性成为了一个重要的课题。深度学习模型中训练不充分、过度线性化的特性会导致模型对某些样本分类错误,这种样本由攻击者添加了特殊的扰动,且人眼难以辨别,它的存在大大威胁了深度学习的广泛应用,这种样本被称为对抗样本。为了抵御这种对抗样本的攻击,研究者们主要采取了改动模型的网络结构、对抗样本检测和将对抗样
频率选择表面(Frequency Select Surface,FSS)是使用周期性的相同(或存在略微差异)金属结构均匀的排列在某种衬底上实现的周期性阵元,其经常被运用于频率选择器,空间滤波器,和雷达散射截面缩减的应用中,通过单元的周期性排列,可以实现对相位和频率信息的调控和重构。在一些特定的情况下,可以实现与相控阵表面相同的功能,并且相比相控阵天线较为复杂的功分器和馈电网络,加载的大量放大器,移