基于深度学习的软件源码漏洞预测

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:beiwei72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件安全漏洞一直是软件企业及用户的一个巨大威胁。随着各种各样的软件安全事件及其对广大用户所造成影响的曝光,软件安全越来越引起公众和媒体的关注。为尽快修补软件漏洞、防止这些漏洞被攻击者利用,需要及时发现软件漏洞,这促使软件安全漏洞检测技术不断发展。近年来机器学习及深度学习技术发展迅速并已被应用到各种领域,深度学习技术能自动从源代码提取与漏洞相关联的上下文特征,于是深度学习被用于对软件源码的漏洞进行预测,该方向潜力极大但已有研究较少,还没有指导性的原则及全面完整的预测系统。本文通过对深度学习方法在漏洞预测中的分析和研究,总结出该领域面临的挑战并一一给出对应解决方案,实现了满足粗细两种粒度需求的漏洞预测系统。通过实验验证表明,系统能在文件级进行粗粒度的预测,给出其是否包含漏洞的参考,也能针对源码中某一小代码块,进行某几种漏洞的细粒度预测和定位,同时本文验证了细粒度预测系统预测新的源码漏洞类型的可能性。具体地,本文的主要贡献总结如下:1)分析了基于深度学习的漏洞预测领域所适用的框架、面临的关键问题及挑战。首先针对该领域没有确切的指导原则的问题,本文对深度学习与漏洞预测的相互适应性进行了分析探讨,得出构建基础深度学习的漏洞预测系统可遵循的指导原则,这些原则围绕预测粒度、中间表示、深度学习算法选择三个问题展开,基于该指导原则,本文给出了针对粗粒度和细粒度的两种预测框架,并对框架的设计原因及如何选择做了详细分析。本文还详细分析了其他更具体的挑战,包括漏洞定位与类型识别、超长序列问题、特征的任务针对性、跨项目预测等。2)设计并实现了一个基于深度学习的粗粒度漏洞预测系统。该系统基于指导原则中给出的框架,以解决深度学习二分类算法中存在的超长序列问题,使得特征提取不再只依赖漏洞标签,而是用类似无监督的方法更多地学习到数据内部的特征,并通过各种实验结果证实了该框架的可行性。在该框架下,本文设计了两种增强型特征提取方法,双模型学习TML和双任务学习TTL,使得特征提取的过程中将漏洞标签也纳入参考,提取到更多有漏洞和无漏洞代码之间差异化的特征,该方法具有较强的通用性,也适用于基于其他特征提取算法的粗粒度预测。针对跨项目预测挑战,本文设计了通用性强的中间表示及基于对抗学习方法AL的多项目通用特征提取方法并验证了其有效性。3)解决了漏洞定位与类型识别的挑战并验证了预测新的源码漏洞类型的可行性。针对漏洞定位与类型识别,通过设计精细的细粒度中间表示,使得作为模型输入的中间表示本身就对应具体的位置,实现了漏洞定位,通过对不同漏洞类型的细粒度预测模型评估,本文得出根据少量数据就可以构建一对一的漏洞预测系统,实现一对一类型识别。更进一步,本文基于现有的四种漏洞类型的数据,设计了多组交叉实验,分析得出跨漏洞类型预测的可行性:在数据集够大或者漏洞类型多样化的条件下,模型可以进行新源码漏洞类型的预测,且能达到已有类型预测即单一漏洞类型预测的效果。
其他文献
红树林是指以红树植物为主体的常绿灌木或乔木组成的潮滩湿地木本生物群落,生长在热带、亚热带低能海岸潮间带。红树林湿地是重要的生态湿地和生物栖息地,具有防浪护岸、调节气候和维持海岸带生物多样性等诸方面的生态功能和生态服务价值。由于其生长于潮间带的浅滩和淤泥中,受海水周期性浸淹,采用人工调查方式进行监测耗时长,工作量大,难以对其边界进行准确定位,而卫星遥感影像具有覆盖广、瞬时成像、时效高、周期可比性独特
在国内经济发展进程中,随着民众生活水平的逐步提升,进而对航空方面的需求逐步增加,这就给航空市场发展带来了较大的发展机遇。在西南航空领域,瑞丽航空发展较为迅速,5年时间引进飞机19架,迅速在云南市场占据一席之地。然而,在近年来的发展过程中,越来越多的民营企业开始向该市场迈进,从而导致航空市场竞争逐步呈现白炽化。与此同时,整个国际市场环境也更为复杂,这就给瑞丽航空发展造成了一定的负面影响,导致其市场份
电力系统的短期负荷预测为电网的安全稳定运行、电能的高效及时调度提供重要的依据。由于用户用电形式的差异性,导致了多种多样的电力负荷模式,能否准确的进行负荷预测直接影
随着人们生活水平日益提高,汽车成为生活中不可或缺的交通工具。传统汽车的大量使用导致能源消耗、环境污染等问题愈发显著,同时也加速了电动汽车的发展步伐。但是电动汽车在低速行驶过程中存在车外噪声过小的问题,对行人以及非机动车驾驶员存在巨大的安全隐患,基于以上现状我国在2019年正式颁布了相应的电动汽车低速提示音国家标准。本文针对以上问题开展电动汽车车外警示音发声装置的研究,其中装置的基本功能要求为:根据
20世纪80年代以来,随着快速发展的经济和工业制造业,导致污染环境事件的频繁发生,对人民的生命财产造成严重威胁,同时给人类互相依存的生态环境造成不可逆的损失。作为最终保护防线的刑法,如何在立法上进行完善,发挥在其应有的效用,是我们迫切需要研究的事情。本文总共分为三章来阐述:第一章是全文的基础,第一节对污染环境罪的概念用分解词语的方法进行解释,从环境的概念、污染行为直到阐述污染环境罪的概念。第二节说
餐饮行业经过多年的经营与发展,成为在国民经济中有着举足轻重作用的重要产业,并进入了新的历史发展阶段。时代的变迁和消费者的改变,对创业型连锁餐饮企业的管理水平提出了更大的挑战。建立健全连锁餐饮企业管理人员培训体系,重视餐饮管理人才的培养和关键人才梯队建设,能够帮助企业实现持续发展的战略目标。本文以Z餐饮公司管理人员培训体系设计为研究内容,通过对企业战略和人力资源现状的分析,尝试建立基于岗位任职资格的
扶余油田葡萄花油层目前所采用的注入水水质对于油藏对于储层造成一定程度的伤害,导致储层近井地带储层渗透率降低、注水压力增大,不利于储层的高效开发。针对这一问题,分析葡萄花油层注入水与储层的匹配程度、降低注入水对储层的伤害就显得十分必要。本文开展了孔隙结构特征研究,发现扶余油田葡萄花油层属于典型的低孔低渗储层,天然岩心孔隙度和渗透率在半对数曲线上呈线性关系。储层天然岩心组成成分研究表明,岩心骨架主要由
20世纪80年代后,国内消费升级和外需增长带动了我国制造业的发展,其总产值排名世界前列。但是,制造业仍旧存在着“大而不强、全而不精”的问题。现阶段,我国人口红利和自然资源的优势逐渐减少。同时,发展中国家和发达国家具有很大的产业竞争和技术锁定,使得我国制造业的升级面临着严峻的挑战。因此,我国制造业迫切需要依靠技术进步和创新实现升级。而生产性服务部门是制造业技术进步的重要支撑,其和制造业在空间上的聚集
气溶胶中空气动力学直径小于2.5μm的成分被称为细颗粒物(PM2.5),为空气质量评估的主要参考对象之一。遥感技术的快速发展为监测PM2.5浓度提供了新方法。本文采用基于太阳光
样例学习的效果受样例呈现方式的影响。学习内容不同,样例的呈现方式也有差异。正误样例是正确样例和错误样例同时呈现的样例,它既提供了正确的解题思路,同时也将可能会出现错误的部分直观呈现,由此产生的认知冲突一方面能够使学习者规避雷区,另一方面也可以使其对于学习材料深入思考。正误样例的适用范围在许多领域已经做过尝试。但在教学法学习领域涉及不多。师范院校教学法运用能力的培养主要基于课程学习与实习。在课程学习