论文部分内容阅读
随着Internet的飞速发展,网络规模的不断扩大,网络用户的成倍增加,网络传输速度和容量的快速增长以及网络应用和业务种类的快速发展,近年来互联网取得了长足的发展。同时随着用户数不断的增长,互联网的收入规模也处在高速的增长状态中。互联网的发展,给运营商带来了移动数据流量的巨大提升,与此同时网络流量也成指数倍的增长。通过对流量特征的处理分析,能够获得网络的运行状况,对IP网络规划、流量控制、网络管理等提供有效的依据;通过统计网络流量可以为用户使用网络提供精确的计费。因此网络流量数据的采集及其分析在网络管理中具有至关重要的意义。为此本文对网络流量采集和分类的相关技术开展了研究,论文的主要工作体现在以下四个方面:(1).在分析流量采集技术及其原理的基础上,提出了基于Libpcap的流量测量驱动程序包TMDK,并在此基础上开发IDCFlow流量采集系统,将核心算法封装到操作系统内核模式,通过内核模式编程、零拷贝技术和合理规划线程来提高系统的处理能力,以实现大规模网络实时流量采集。(2).为了跟踪通信双方的行为,保证上下文一致性,对抓取到的数据包需实施流量跟踪。本文在研究并验证流量的本地特性的基础上,提出DHT(Dynamic HashTable)流跟踪算法,通过为冲突率高的节点建立二级链表方式减少Hash冲突,传统流量跟踪算法性能得到大大提高。(3).研究了现有数据包分类算法及其评价标准,重点分析了HiCuts算法在构建决策树过程中存在的不足,针对HiCuts算法存在的问题提出基于非均匀切割的N-HiCuts改进算法,算法复杂度和性能分析显示算法性能得到优化。(4).设计并实现IDCFlow流量采集系统,分析了系统的体系结构、部署方案以及整体设计,对网络流量采集、流量跟踪以及流量分类等核心模块做详细阐述。在UESTC校园网环境下对该系统实施测试,系统测试表明该系统能够很好实现大规模流量实时采集和分析功能。