NBOS_S流量识别模块的改进

来源 :东南大学 | 被引量 : 0次 | 上传用户:yanshileia001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络规模不断扩大、网络应用日益繁多、网络安全隐患大幅增加的背景下,网络管理被上升到计算机网络中一个不可或缺的层面。网络流量识别是网络管理所需用到的技术中的一项,通过对互联网中流量进行精确分类与识别,有助于网络的设计与规划、安全监测与管理。但随着基于IP的互联网新业务、恶意网络行为、高QoS需求的实时业务不断涌现,网络流量日趋复杂、动态、多变,使得准确、实时的互联网流量识别成为一个具有高度挑战性的问题,并成为互联网测量领域的研究热点之一。  NBOS_S是一个用于监控和管理JSERNET网络服务质量和网络安全状态的新型网络服务管理系统,本论文的研究工作主要围绕NBOS_S中基于NetFlow格式的流量识别模块展开。研究目标为不改变NBOS_S系统工作模式和时间限制的条件下,对其现有的流量识别模块在2个方面进行改进,其一是使分类器更加精确,分类结果更加可信;其二是使分类目标更加合理和细化,能够识别出部分常用的应用软件和部分恶意流量。  针对研究目标,本文的主要研究工作及创新如下:  (1)构造了不同抽样比下(p=1,1/128,1/256,1/1024,1/2048)的训练样本集。首先针对识别模型的应用环境以及任务需求,采集到4组流量数据。然后用nDPI方法对未知流量进行识别,并结合已知类型的流量,得到标准应用流量。接着对标准应用流量模拟NBOS_S系统中不同抽样比下NetFlow流的生成过程,并统计流的测度值,形成标准特征集。将基于信息熵的对称不确定性(SU)引入到测度选择中,以避免冗余无效流测度对协议识别的负面影响。标准特征集去除无关冗余的流测度值,并增加相应的类别信息后,便形成训练样本集。  (2)分析了报文抽样对流测度值以及测度选择的影响,从理论上分析了影响产生的原因。用回归分析的方法,对不同抽样比下,各个测度值间的函数关系进行了研究。在后续的实验中,证明了当训练样本集与待识别流的抽样环境不一致时,将相应的修正函数作用于待识别流时,识别准确率有11%的提高。  (3)利用聚类分析的思想对分类目标进行了合理的扩展与细化,得到了一个能够识别出部分常用软件和恶意流量的分类目标,将众多的协议分成了11大类16小类。在聚类分析算法的选取上,针对网络流量数据维数高、不稳定、非线性、复杂性的特点,选取了基于密度思想的DBSCAN算法,并用高斯核函数对聚类对象进行平滑处理,有效地消除了聚类对象分布不均对聚类结果造成的不良影响,最后通过对聚类样本基于不同的测度组合进行两次DBSCAN聚类,优化了聚类的结果,得到最终的分类目标方案。  (4)构造了基于端口及C5.0决策树的分类器。通过对标准应用流量的端口特征进行统计分析,得到了可作为协议唯一标识的端口特征。利用C5.0算法基于训练样本集中的信息增率来构建分类模型,并使用自适应增强的boosting迭代技术,产生最终的强分类器。实验表明,基于C5.0算法的决策树模型在未抽样和1/256抽样的情况下,训练模型的准确率均在90%以上,10折交叉验证测试的准确率在88%左右,boosting技术的引入能够较好地提升决策树模型及测试结果的准确性。
其他文献
近年来,P2P作为一种新型的网络应用模型以其可扩展性、高度容错性等优点变得越来越流行。网络中的节点在逻辑上是对等的,兼有服务器和客户端的双重功能。搜索机制作为P2P应用的
本文以USB(Universal Serial Bus)接口的数据采集系统的研制过程为主要内容,阐述了利用Philips公司的PDIUSBD12芯片与ATMEL的AT89C52单片机实现USB接口的设计方案、开发方法
随着集成电路技术以及芯片制造工艺的高速发展,在CPU内部嵌入调试功能模块的片上调试技术(On-hip Debugging)应用越来越广泛。在进行SoC芯片的系统开发时,对SoC芯片的调试直接
构件软件在其生命周期中会经历多次演化,在演化过程中会对构件系统进行修改。要验证修改的正确性和新系统的可靠性,就必须对构件系统重新执行测试。构件系统回归测试只需要测试
随着企业合作和管理信息化的发展,许多信息系统要访问异构数据库,这些数据库的异构性体现在数据库类型的不同、数据库结构不同或者数据类型的不匹配。而可扩展的标记语言由于
肾脏和前列腺都是人体的重要器官,近年来肾脏疾病和前列腺疾病对人类健康造成了很大威胁。在肾脏疾病诊断中,医生经常使用CT机来对肾脏的病情进行观察,CTA(ComputedTomographic
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文本自动分类是信息检索(Information Re
随着人们对信息的各种需求急剧增加,网格计算迅速发展起来,并被认为是信息技术发展的下一波大浪潮。利用网格技术能够实现各种资源的全面共享与连通。目前,Web服务技术和网格
X射线成像是医学诊断中重要的成像手段。成像系统中原始的X射线束穿过人体时会发生散射,这些散射线到达探测器后严重影响成像质量。在探测器前放置滤线栅是防止散射影响图像的
随着网络应用的发展,企业面临的安全威胁不仅仅来自于网络层,更多的是应用层的威胁,如病毒、垃圾邮件、不良Web内容等。网络安全的需求也在发生变化,用户需要能够防御混合型