基于深度学习的恶意代码检测技术研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:Hamihami
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在国民生活中越来越普及,人们生活的众多方面已经和网络交织在一起。在已经逐渐饱和的互联网时代中,恶意代码的种类和数量不断增加,攻击手段也在不断变化。恶意代码的动态分析易受到执行环境的约束,无法获得全路径行为特征,且开销较大、效率较低。近些年流行的基于机器学习的恶意代码检测方法,无法自动和有效地提取特征,依赖于人工提取特征,这些浅层特征无法准确描述恶意代码,导致检测的准确率较低等问题。针对以上问题,本文利用深度学习的思想和技术,从静态分析入手,对恶意代码进行检测。本文的主要工作如下:1.提出一种基于Glove的恶意代码指令层和语义层特征的向量化表示模型。本文从静态分析入手,先对恶意代码样本进行查壳与脱壳操作,确保不会受到代码加壳的影响。传统特征提取方法通常是利用N-Gram算法,缺乏对恶意代码上下文行为信息的相关性考虑。针对此问题,本文设计并实现基于Glove算法的特征向量化表示方法。先进行批量反汇编获取汇编文件,提取两种能很好地表示恶意代码行为信息的特征。在指令层面,利用基于正则表达式匹配的算法在汇编代码中提取出操作码序列;在语义层面,利用深度优先的遍历算法在汇编文件代码中提取出关键API序列,构造Glove模型获取特征的向量化表示模型,通过词向量之间的空间距离来表示序列的相关性,进行对比实验验证词向量方法的效果。2.设计并实现一种基于基于卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)的神经网络模型,命名为MCC_RCNN(Malicious Code Detection_Recurrent Convolutional Neural Network)。机器学习分类模型通常比较简单,特征提取方法通常停留在表层,致使恶意代码检测的准确率较低。近几年利用深度学习对恶意代码进行检测成为研究热点。但是单独应用RNN例如LSTM(Long Short-Term Memory)检测时,LSTM模型无法提取过长的序列信息;单独应用CNN检测时,经CNN训练后,特征不具备上下文的关联性。针对以上问题,本文结合CNN和RNN,提出一种检测模型,命名为MCC_RCNN。MCC_RCNN融合LSTM和Gated CNN,先将恶意代码特征序列输入到LSTM中,利用LSTM的保存机制、遗忘机制和长时间记忆信息的特点获得长序列的操作行为信息,再把LSTM的输出作为Gated CNN的输入。利用Gated CNN中提取不同维度的更深层次局部特征,进行检测分类。数据集选用的为Kaggle平台上微软发起的恶意代码公开数据集,通过与卷积神经网络、循环神经网络和机器学习分类模型的比较,证明本文提出的MCC_RCNN恶意代码检测模型的效果。3.提出一种恶意代码静态行为层面特征融合的特征描述方法。恶意代码检测分类的结果很大程序上取决于特征描述方法。恶意代码的不同层面静态特征从不同维度描述恶意代码,为充分发挥静态分析的优点,减少静态分析的代码混淆影响,本文将恶意代码的指令层和语义层特征进行融合,目的是提高特征的描述能力,使恶意代码被描述的更加准确。通过将两种特征向量在全连接层横向拼接,再通过MCC_RCNN模型检测,通过对比实验和与国际前沿论文进行对比,验证了融合特征的检测方法的效果。
其他文献
改革开放40年,中国逐渐成为世界第一制造大国,经济发展也进入“新常态”。与此同时,智能化热潮席卷全球,如何提高制造业全要素生产率,促进制造业高端化转型升级成为了中国经济发展面临的重要任务。本文首先梳理了智能化对制造业全要素生产率影响的相关文献;然后基于2003-2016年省级面板数据,测度并分析了中国制造业智能化和全要素生产率的发展现状;其次建立了智能化影响制造业全要素生产率的理论模型,挖掘其内在
航空发动机是多学科、多领域交叉结合的高精尖技术产物,具有整机结构复杂、工作环境恶劣、装配难度高等特点,其中高压压气机是航空发动机的核心部件,核心机转子的装配质量直
学位
进入21世纪后,随着城市化的不断发展,全球气候不断变暖以及环境污染等问题的不断恶化,城市洪涝也变得越来越严重,其对人们的生命安全和财产安全造成的危害也是日益严重。因此
2019年12月,由新型冠状病毒引发的肺炎疫情在武汉等多地爆发,对我国的经济发展,社会秩序等方面都带来了极大的负面影响。2020年2月,在巴西,尼日利亚等地也都爆发了不同的传染病疫情,引发了世界公民的“疫情恐慌”。以上种种的公共卫生事件将传染病防御防控这个概念重新带回到了大家的视野。国内外很多专家学者在传染病预测方面做了大量的研究工作,也取得了很多显著的成绩,如小波模型[9]、灰色动态模型[36]
[研究背景]发热伴血小板减少综合征(severe fever with thrombocytopenia syndrome,SFTS)是由发热伴血小板减少综合征病毒(severe fever with thrombocytopenia syndrome vir
随着预训练技术的发展和进步,预训练语言模型已经逐渐成为自然语言处理(Natural Language Processing,NLP)领域的新范式。采用预训练语言模型可以得到更好的上下文语义表示,
图像是人类感知世界的一种重要信息。因此,图像信息也是人类日常生活,生产消费,科学研究中接触到的最直接和最直观的信息,其应用领域必然涉及到人类生产生活和工作的各个方面。但是由于图片的拍摄环境,传输干扰,存储误差,人为操作失误等一系列原因,从而降低人们对图片的识别度,对于后期的处理和应用造成了一定的困难。这样的结果使得一幅图片的质量往往不尽人意。但中值滤波,平均平滑,同态滤波和直方图均衡化的算法的应用
实用类文本是与现实生活联系最为密切的一类文本。随着现代社会的发展,是否具备良好的实用文读写能力对学生未来工作和生活的影响会越来越大。从2003年首次在课程标准中出现到2017年被摆到课程标准的突出位置,实用类文本的地位得到了大幅提升,但是通过调查却发现,在实际教学中实用类文本的教学形势并不乐观。“学习任务群”是《普通高中语文课程标准(2017年版)》中提出的一个新概念。“学习任务群”作为一种全新的
蛇足石杉(Huperzia serrata(Thunb.ex Murray)Trev.)是一种多年生药用蕨类植物,生活史漫长而复杂。其体内的生物碱—石杉碱甲(Hup-A)是世界上治疗阿尔兹海默症的重要药物之一