论文部分内容阅读
恶意软件具有传播迅速、种类繁多、变种复杂和破坏性强等特点,是当今网络安全的主要威胁之一。恶意软件变种数量的增加和逃避技术的不断升级导致恶意软件检测仍是一项艰巨而具有挑战性的任务。恶意软件检测主要面临以下三方面的挑战:第一,传统的机器学习方法提取恶意软件本质特征困难;第二,复杂的恶意软件行为难以进行简单、有效的表示;第三,恶意软件变种可以逃逸恶意软件检测。基于行为的恶意软件检测方法通过追踪恶意软件执行的行为轨迹来捕获程序的恶意活动。本文对基于行为分析的恶意软件检测过程中存在的挑战展开了分析研究并取得了如下创新性成果。1.针对传统机器学习方法提取恶意软件本质特征困难的挑战,本文设计并实现了一种基于行为的深度学习模型(Behavior-based Deep Learning Model,BDLM)。在提出的 BDLM 中,设计 了包含 3个隐藏层,通过逐层训练提取特征的高级抽象特征表示栈式自编码(Stacked AutoEncoder,SAE)。SAE将高维原始特征转换为500个新的低维抽象特征表示。此外,BDLM利用SAE结合不同的分类器来进行恶意软件检测并探索了最优的恶意软件检测模型。实验结果表明,相比于传统方法,基于SAE和DT的BDLM的平均检出率提高了 2.5%。2.针对复杂的恶意软件行为难以进行简单、有效的表示的挑战,本文提出了一种图重划分算法。提出的图重划分算法可以将API调用图转换为N阶子图(N-order subgraph,NSG)表示。NSG是一种保留了调用图中的依赖性的片段行为,可以用来描述恶意软件家族的行为。片段行为的有效表示,避免了恶意软件检测过程中存在的图匹配问题。论文还改进了词频-逆文本频率指数(Term Frequency-Inverse Document Frequency,TF-IDF)。论文利用改进的TF-IDF来提取关键N阶子图(Crucial N-order subgraph,CNSG)。实验表明,基于关键N阶子图的恶意软件家族分类准确率比基于子图和API调用序列片段的方法提高了 0.52%和1.43%。基于关键N阶子图的方法提供了更好的恶意软件分类性能。3.针对恶意软件变种可以逃逸恶意软件检测的挑战,本文将同态加密技术引入恶意软件检测领域,设计了一个基于加密规则的恶意软件检测系统(Encryption-Based Malware Detection System,EMDS)。EMDS利用同态加密技术构建了一个基于隐私保护的朴素贝叶斯分类器(Privacy-preserving Naive Bayes Classifier,PP-NBC)。PP-NBC通过对检测规则的加密保护,防止恶意软件窥探检测规则并生成新的变种,从而逃逸当前的检测。EMDS可以在完成恶意软件检测的同时保证恶意软件检测规则不被泄露,是抵抗恶意软件逃逸的重要环节,同时也是恶意软件检测走向安全检测的有效手段。基于以上三大挑战,本文设计并完成了基于深度学习的恶意软件检测研究、基于关键N阶子图的恶意软件分类研究和基于加密规则的恶意软件检测研究。基于深度学习的恶意软件检测研究和基于关键N阶子图的恶意软件分类研究通过提取恶意软件关键行为,提高了恶意软件检测准确率。基于加密规则的恶意软件检测研究在实现恶意软件检测的基础上保护了恶意软件检测规则。