论文部分内容阅读
当今,互联网飞速发展,网络新业务层见叠出,网络流量也呈现指数级的增长。网络业务流量的精细识别被广泛应用于规划和管理网络,解决网络用塞,预防网络攻击等方面,成为对防火墙等安全技术的有力补充。高速网络的出现对流量识别技术提出了更高的要求,而分布式计算框架对大规模数据的处理能力使其能够更好的应对高速网络流量,从而确保网络环境的通畅。因此,将分布式计算框架应用于网络业务流量识别中已成为新的研究热点。本文阐述了网络流量识别技术的理论,对当下最为常见的网络流量识别技术中包含的端口识别技术、DFI技术和DPI技术进行了深入分析。通过分析网络流量识别的需求,重点研究了DPI技术中的KMP算法、BM算法、WM算法和AC算法,对各种算法的原理以及算法的运算流程进行了对比性研究,提出了一种改进的模式匹配算法--BMF算法,它能够更加快速的进行文本串的模式匹配。伴随着互联网的高速发展,传统的网络结构已经难以适应如今网络新业务的需求,传统的关系型数据的存储和计算也已经难以适应未来海量流量增长的需求,因此应用分布式计算框架对大规模数据流量进行识别是必然的发展趋势,本文根据Hadoop云计算平台的特点设计了基于DPI技术和MapReduce模块的MapReduceBoyer-MooreFast算法的运算流程,将DPI技术应用到Hadoop云计算平台中,最后搭建Hadoop实验集群,抓取数据进行对比实验,实验结果表明,该方法能够有效的识别网络业务流量。 本研究主要内容包括:⑴提出了一种改进的模式匹配算法—BMF算法。BM算法利用好后缀规则和坏字符规则构造两张跳转表,指示字符向右移动的距离,在此基础上,本文对算法的匹配思想进行了优化和改进,舍弃了好后缀规则以及好后缀规则中数据链表的构造,从而简化了算法的运算流程,降低了空间复杂度,重点利用坏字符规则,改进字符匹配方式,增加文本串向右移动的最大距离,降低了文本串向右移动的次数。实验结果表明,BMF算法在不降低匹配准确率的前提下一定程度上提高了模式匹配算法的运行效率。⑵设计了基于Hadoop平台的DPI技术流量识别方案。首先使用抓包软件Wireshark对网络流量进行抓取,提取流量的数据包特征,然后利用Hadoop平台处理大规模数据流量的优势,将 DPI技术与 MapReduce编程框架进行结合,根据其框架特点设计了MapReduceBoyer-MooreFast算法的运算流程,最后搭建相关的实验环境,在Hadoop云计算平台下实现了基于DPI技术的流量识别。实验结果表明,DPI技术在Hadoop平台下不仅提高了流量识别的效率,而且也保证了识别的准确率。