论文部分内容阅读
近年来互联网的飞速发展,相关技术的日益成熟,同时各种网络应用给我们的日常生活带来了极大的方便,因此带动了互联网用户爆炸式的增长。互联网已成为我们生活,工作和学习等方面不可或缺的重要组成部分,我们周围的很大部分事情都是靠网络来完成的,例如我们的工作中可能需要通过互联网与客户进行重要的视频会议,或者传递重要的文件;日常中不论是发生在我们周围的事情还是远在千里之外发生的事情我们都是通过互联网得到的,跟朋友,家人的沟通不管是同步的M消息还是异步的如邮件之类的都是离不开互联网来完成;我们生活中的网络购物也是借助互联网发展起来的电子商务来实现的。任何事情都具有两面性的,有其利也有其弊,互联网也是如此。目前互联网体系结构表现出日益复杂的趋势,同时网络的异构性也愈来愈强烈,新的应用和未知协议也是越来越多,而且有些协议通过封装等手段伪装起来逃避相应的网络监测,导致互联网也越难于管理;而且伴随着P2P协议的广泛应用,纵然互联网基础带宽越来越大但仍然跟不上P2P协议对带宽的消耗,因此严重损害了传统的互联网应用;除此之外网络安全面方面也面临着极大的威胁,各式各样的恶意攻击,如DDOS攻击、僵尸网、蠕虫、病毒等严重地危害到网络服务和信息安全,造成个人隐私信息的泄露,甚至是重大机密信息的泄露。因此,网络流量分类已成为网络管理的基础和重要手段。目前已经存在三大类网络流量分类系统,但都有各自明显的缺陷。基于端口的网络流量分类系统由于目前动态端口的增多以及大量的协议封装导致效率很低;基于数据包负载特征匹配的流量分类系统由于需要大量的计算资源以及目前大量加密协议的出现也变得难于应对;基于数据包统计行为特征的流量分类方法虽然可以克服加密协议,而且计算资源需求小,但其难于发现新应用,而且对于模式的变化抗干扰能力差。因此,基于种种原因,我们迫切需要一个高性能的网络流量分类系统,能够克服前面提到的分类系统的不足。本文中,我们采用了一种称为基于流量负载特征与流量行为统计特征相结合的混合流量分类系统,我们设计一种简单而且规范的机制,来融合这两种分类方法的优点,使其协同工作,实现高效、准确的网络流量识别。主要思想是先利用基于负载行为的分类方法对数据流进行分类,产生训练集,然后通过训练集训练基于行为特征的分类方法,最后将这两种结合起来,形成一个处理效率和精确度都比较高混合分类器,并在一定时段后,重新训练基于行为特征的分类方法。