论文部分内容阅读
网络流量测量是了解网络运行状况和理解网络行为的基础。随着带宽的快速增加和互联网的普及,我们将面临网络流量测量的新挑战。由于海量网络流量数据与有限系统资源之间的矛盾存在,传统的流量测量算法已经很难满足高速网络应用需求。近年来,多核技术已成为当前处理器体系架构发展的必然趋势。另外,随着云计算技术的推广,云计算平台具有对海量网络流量数据进行并行分布式处理的强大能力。因此,基于多核技术与云计算平台的并行分布式设计成为提高网络流量测量算法性能的有效途径。尽管网络流量测量算法广泛应用于网络安全、网络计费及流量工程等领域,但在高速网络环境下还有许多网络流量测量问题需要研究与解决。本论文围绕流量突发性,提出相关模型和流量测量算法,解决高速网络环境下流量测量面临的关键问题,为网络运行和管理提供有力支撑。从流量突发性角度,提出峰值流量测度,分析网络行为和建立合理的容量规划模型,为新建校园网的接入带宽提供准确评估;针对网络流量分布的重尾特性和MapReduce算法中负载不均衡问题,提出一种MapReduce框架下基于自适应抽样的大流识别方法;针对基于流抽样的超点检测方法存在计算负荷重、检测精度低、实时性差问题,提出超点检测的并行数据流方法;为了满足长持续时间流检测的高速网络应用需求,设计了基于共享数据结构的长持续时间流的并行检测方法和基于独立数据结构的长持续时间流的并行检测方法,基于独立数据结构的长持续时间流检测方法更好地满足高速网络的应用需求。实验验证了上述模型和算法的有效性。论文的主要工作和创新点为:(1)从流量突发性角度,提出峰值流量测度,分析网络行为和建立一种合理的容量规划模型,为新建校园网的接入带宽提供准确评估。首先,通过假设检验和拟合优度检验表明峰值流量服从渐近高斯分布,通过自相关性分析表明峰值流量间彼此相互独立;其次,研究网络内在特征对峰值流量的影响,一方面,通过统计学方法建立方差分析模型,研究接入带宽与峰值流量之间的关系,分析表明接入带宽对峰值流量的影响较小,另一方面,通过统计学方法建立协方差分析模型,研究接入带宽、网络用户数与峰值流量之间的关系,分析表明接入带宽与网络用户数存在较强的相关性,网络用户数是影响峰值流量的主要因子;最后,在上述分析的基础上建立线性回归模型及容量规划模型。通过实验验证容量规划模型的有效性。(2)针对网络流量分布的重尾特性和MapReduce算法中负载不均衡问题,提出了一种MapReduce框架下基于自适应抽样的大流识别方法。由于MapReduce框架中通过Hash函数按照分组将任务分配到每个reducer,如果分组服从均匀分布,那么每个reducer被分配相同的任务数,reducer之间是负载均衡的;如果分组服从偏态分布,那么每个reducer被分配不相同的任务数,导致reducer之间负载不均衡。另外,通过自适应抽样技术得到准确的流长分布估计,同时可以极大地减少所需的计算和存储资源。方法的实施中,一个MapReduce作业通过自适应抽样过程获得原始流长分布估计,在此基础上制定数据划分策略;另一个MapReduce作业通过数据划分策略指导大流识别。理论分析表明通过自适应抽样获得的流长分布估计是无偏的,通过配置参数可以控制流长分布估计的相对误差。实验结果表明,与默认的基于Hash函数的数据划分方法和TopCluster相比,提高了大流识别方法的性能,实现了reducer之间的负载均衡。(3)针对基于流抽样的超点检测方法存在计算负荷重、检测精度低、实时性差问题,提出了一种超点检测的并行数据流方法。随着多核处理器的发展,并行设计成为算法性能提高的一种有效途径。首先,为每个线程建立本地Sketch数据结构,当报文到达时,通过多个Hash函数运算,将Sketch数据结构中对应位置为1,当测量时间周期结束后,对多个本地Sketch数据结构进行合并;其次,估计节点的链接度,确定超列;最后,利用定理5.1对Sketch数据结构中任意两个超列的组合进行逆计算构造节点的IP地址,估计节点的链接度,如果节点链接度大于阈值,则认为该节点是超点。重复上述步骤,直到处理完所有的超列组合。性能分析和实验结果表明,该方法具有良好的检测精度和较低的开销。(4)为了满足长持续时间流检测的高速网络应用需求,在多核硬件平台上,从共享数据结构和独立数据结构角度设计长持续时问流的并行检测方法。由于基于共享数据结构的长持续时间流检测方法中不同线程之间共享数据结构(Cuckoo Hash表),共享数据结构读操作远多于写操作,引入读写锁来实现线程之间的同步,导致线程之间的同步开销过大,不能够满足高速网络的长持续时间流检测应用需求。针对上述问题,基于独立数据结构的长持续时间流检测方法为不同线程建立本地数据结构,从而线程之间不需要同步,且产生较少的开销。性能分析表明,基于独立数据结构的长持续时间流检测方法具有低的时间和空间复杂度。实验结果表明,该方法具有良好的时间效率,与相关方法相比,具有较好的检测精度和流持续时间估计。