论文部分内容阅读
在网络规模不断扩大、网络应用日益繁多、网络安全隐患大幅增加的背景下,网络管理被上升到计算机网络中一个不可或缺的层面。网络流量识别是网络管理所需用到的技术中的一项,通过对互联网中流量进行精确分类与识别,有助于网络的设计与规划、安全监测与管理。但随着基于IP的互联网新业务、恶意网络行为、高QoS需求的实时业务不断涌现,网络流量日趋复杂、动态、多变,使得准确、实时的互联网流量识别成为一个具有高度挑战性的问题,并成为互联网测量领域的研究热点之一。 NBOS_S是一个用于监控和管理JSERNET网络服务质量和网络安全状态的新型网络服务管理系统,本论文的研究工作主要围绕NBOS_S中基于NetFlow格式的流量识别模块展开。研究目标为不改变NBOS_S系统工作模式和时间限制的条件下,对其现有的流量识别模块在2个方面进行改进,其一是使分类器更加精确,分类结果更加可信;其二是使分类目标更加合理和细化,能够识别出部分常用的应用软件和部分恶意流量。 针对研究目标,本文的主要研究工作及创新如下: (1)构造了不同抽样比下(p=1,1/128,1/256,1/1024,1/2048)的训练样本集。首先针对识别模型的应用环境以及任务需求,采集到4组流量数据。然后用nDPI方法对未知流量进行识别,并结合已知类型的流量,得到标准应用流量。接着对标准应用流量模拟NBOS_S系统中不同抽样比下NetFlow流的生成过程,并统计流的测度值,形成标准特征集。将基于信息熵的对称不确定性(SU)引入到测度选择中,以避免冗余无效流测度对协议识别的负面影响。标准特征集去除无关冗余的流测度值,并增加相应的类别信息后,便形成训练样本集。 (2)分析了报文抽样对流测度值以及测度选择的影响,从理论上分析了影响产生的原因。用回归分析的方法,对不同抽样比下,各个测度值间的函数关系进行了研究。在后续的实验中,证明了当训练样本集与待识别流的抽样环境不一致时,将相应的修正函数作用于待识别流时,识别准确率有11%的提高。 (3)利用聚类分析的思想对分类目标进行了合理的扩展与细化,得到了一个能够识别出部分常用软件和恶意流量的分类目标,将众多的协议分成了11大类16小类。在聚类分析算法的选取上,针对网络流量数据维数高、不稳定、非线性、复杂性的特点,选取了基于密度思想的DBSCAN算法,并用高斯核函数对聚类对象进行平滑处理,有效地消除了聚类对象分布不均对聚类结果造成的不良影响,最后通过对聚类样本基于不同的测度组合进行两次DBSCAN聚类,优化了聚类的结果,得到最终的分类目标方案。 (4)构造了基于端口及C5.0决策树的分类器。通过对标准应用流量的端口特征进行统计分析,得到了可作为协议唯一标识的端口特征。利用C5.0算法基于训练样本集中的信息增率来构建分类模型,并使用自适应增强的boosting迭代技术,产生最终的强分类器。实验表明,基于C5.0算法的决策树模型在未抽样和1/256抽样的情况下,训练模型的准确率均在90%以上,10折交叉验证测试的准确率在88%左右,boosting技术的引入能够较好地提升决策树模型及测试结果的准确性。