基于特征重要度的缺陷报告推荐方法研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:z504555643
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于开源软件的研发与维护采用自愿参与、分散组织方式,相对于商业软件,开源软件缺陷分派存在更多的不确定性、往往具有更长的缺陷修复过程。一些像Mozilla、Eclipse等具有广泛用户的大型开源软件,随着版本迭代升级,功能日趋复杂,每天都产生大量的缺陷报告。而由于缺陷提交者水平、经验参差不齐,存在大量低质量、重复甚至无效的缺陷报告,这些报告直接影响到整个缺陷分派与修复的效率;另一方面,缺陷需要大量的结构化、半结构化信息描述,哪些信息需要重点阐述?哪些信息可以简略描述?明确这些问题,不仅能够有效指导提交者提交高质量缺陷报告,也将辅助于缺陷分派者和修复者能够快速聚焦缺陷关键特征,形成缺陷有效性准确判定和难易程度准确预测,直接和间接提升缺陷分派的效率。传统的缺陷分派推荐多是基于缺陷的文本特征,采用各类机器学习方法进行的,但预测的准确率一直较低。本文综合考虑缺陷的各类特征,分析不同类特征的重要性,设计一种既可以完成相应的缺陷预测的又同时实现了特征重要度度量的深度学习模型,并在此基础上设计融合特征权重的相似度度量方法,并改进历史缺陷分派传递图(Tossing Graph)对推荐列表进行优化,提升缺陷分派的准确性。本文的主要贡献如下:1)设计一个Bug数据爬取与信息提取程序,完成Mozilla开源项目的数据爬取,并能实现自动化的数据抽取、数据清晰和特征提取,形成一个开放的开源缺陷数据集;2)设计一个包含发布者经验、完整度、可读性、社交网络以及文本5个维度、28种特征的缺陷报告描述信息结构,提出一种基于Attention机制的深度学习模型,可以实现缺陷报告有效性预测、修复快慢预测,并能够在预测过程中自动度量特征的重要度。实验结果显示,本文提出的模型在有效性判定、缺陷修复时间快慢预测要高于现存的方法,并能结合常见的特征选择方法,能够完成维度间和维度内的特征重要度排序;3)提出了基于缺陷报告特征重要度的开发者预测方法BFIR模型,模型通过基于特征重要度的缺陷报告相似度匹配方法,推荐修复相似缺陷的开发者列表,并进一步通过改进的Tossing Graph方法优化推荐列表。实验表明本文提出的方法在缺陷分派推荐中均优于常见的机器学习方法,也验证了本文考虑的多特征因素、特征重要度因素、改进Tossing Graph推荐列表优化等因素能够有助于提升缺陷分派的准确性。
其他文献
垂直发射井筒是潜艇导弹发射的重要装置,通过嵌入到发射井筒设备内的光电编码器反馈到筒盖系统控制单元实现其开关盖运动控制,垂直发射井筒的传感器故障对潜艇的导弹发射将造
人博卡病毒1型(Human bocavirus 1,HBo V1)是细小病毒科细小病毒亚科博卡病毒属的成员之一。HBo V1的感染部位是人体呼吸道,会引起严重的呼吸道疾病,最常见的症状是急性哮喘,
随着互联网的快速发展,各种信息数据以指数级别的速度增加,海量杂乱无章的文本数据分布在各行各业,而文本挖掘中用户特征分析、推荐系统、舆情监控等任务的实现均依赖于高质
雷达目标的微动中包含了大量的信息,微动是由目标结构特点和运动信息作用的结果,可根据微动特征得到雷达目标的特有信息,对目标的微动特征提取成为雷达目标探测领域一个热门
近年来,为了应对移动数据流量的爆发式增长,通过在传统基站覆盖范围内布置低成本、低能耗、覆盖范围小的异构小基站构建的异构蜂窝网络受到了广泛的关注。但是小基站有限的回
随着社交时代的到来,社交网络分析逐渐成为研究热点,在社交网络研究的众多问题中,社区的发现与演化分析是一个典型问题。相比较其他复杂网络,社交网络在节点的多样性和结构的
p53蛋白是一种重要的肿瘤抑制因子,在细胞周期的阻滞、DNA损伤的修复以及细胞凋亡等过程中发挥着重要作用。大约有50%恶性肿瘤与p53基因突变有关,约50%肿瘤与p53蛋白的活性受
半导体热电材料的电阻率和电动势率是判断其热电性能好坏的重要标准,通过测量电阻率和电动势率,可以得到半导体热电材料的功率因子,从而分析材料的热电转换效率。为了对半导
随着信息技术的发展,盲源分离逐渐成为了信号处理领域至关重要的研究技术,其主要针对在源信号及混合参数都未知的情况下,仅依据观测信号分离出源信号。根据源信号数目和观测
随着我国资本市场相关制度与法律法规的不断发展和完善,股权质押凭借其方便快捷等诸多优点成为上市公司特别是中小板上市公司筹措资金的重要工具,深受上市公司控股股东的青睐