论文部分内容阅读
网络技术不断地发展,网络安全已经成为每个人,每个企业乃至每个国家政府机关信息系统中的重要一环。针对特定组织、目标的高级持续性威胁不断地挑战网络安全的防线,其高度的针对性,伪装性和阶段性使得许多常规的传统检测技术无法发挥正常作用。高级持续性威胁(Advanced Persistent Threats,APT)不断地收集目标受害者的信息,使用各种各样的漏洞利用手段来对其进行渗透和入侵。而现如今,许多高级持续性威胁的检测手段也利用机器学习算法,结合网络流量数据的数据统计信息和行为特征来对其进行识别。而使用机器学习算法的关键问题在于找到合适的特征向量来提供给学习器。同时,网络流量的数据量往往是非常大的,直接分析会消耗大量的计算资源和时间。本文结合信息熵理论和各种机器学习算法,对高级持续性威胁的检测进行了深入的研究,发现现有方案往往侧重于寻找攻击流量隐藏的特征,而且消耗非常多的计算资源。而本文首次将高级持续性威胁攻击的检测分为两个相对容易解决的问题——检测包含攻击流量的网络流量段,进一步从小范围的流量数据中识别攻击流量。在上述检测框架下进而提出了基于熵和支持向量机的高级持续性威胁的检测方法和基于数据引力的异常流量识别。从而很大程度上降低了流量检测在计算资源和时间上的消耗,同时也能够保持较高的准确率和效率。本文主要工作如下:1.提出分两阶段检测高级持续性威胁的检测框架,即先从海量的网络流中找到可能包含攻击流量的流量段,接着从可疑的流量段中进一步的识别攻击流量。通过这样的检测框架能够将局域网中的海量数据简化很多,相比于直接检测攻击流量的方案来说,能够大大降低检测所需要的计算能力,提高检测效率和准确率。2.为了降低流量分析时所需要处理的数据量的同时提高后续流量识别的精准率,降低误报率,引入了信息论中的熵的概念,来将流量数据中的一些特征转换成全新的特征,并且将他们应用到支持向量机中,进而提出基于熵和支持向量机的高级持续性威胁的检测方法。实验结果证明我们的方法能够有效且高效地对具体网络中某段流量中是否包含APT流量发出警告,从而实现了包含攻击流量的网络流量段的检测。3.在前面工作的基础上,结合非平衡数据分类问题准确地识别攻击流量,引入非平衡数据引力的分类算法,在缩小了包含攻击流量的数据范围的基础之上,非常有效地识别出了攻击流量。并且通过与其他机器学习算法对比,证明基于数据引力的异常流量识别算法能够显著地提高对攻击流量识别的精准度,降低了误报率,最终达到了检测高级持续性威胁攻击的目的。