高速网络流量测量关键问题研究

来源 :东南大学 | 被引量 : 7次 | 上传用户:julian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络流量测量是了解网络运行状况和理解网络行为的基础。随着带宽的快速增加和互联网的普及,我们将面临网络流量测量的新挑战。由于海量网络流量数据与有限系统资源之间的矛盾存在,传统的流量测量算法已经很难满足高速网络应用需求。近年来,多核技术已成为当前处理器体系架构发展的必然趋势。另外,随着云计算技术的推广,云计算平台具有对海量网络流量数据进行并行分布式处理的强大能力。因此,基于多核技术与云计算平台的并行分布式设计成为提高网络流量测量算法性能的有效途径。尽管网络流量测量算法广泛应用于网络安全、网络计费及流量工程等领域,但在高速网络环境下还有许多网络流量测量问题需要研究与解决。本论文围绕流量突发性,提出相关模型和流量测量算法,解决高速网络环境下流量测量面临的关键问题,为网络运行和管理提供有力支撑。从流量突发性角度,提出峰值流量测度,分析网络行为和建立合理的容量规划模型,为新建校园网的接入带宽提供准确评估;针对网络流量分布的重尾特性和MapReduce算法中负载不均衡问题,提出一种MapReduce框架下基于自适应抽样的大流识别方法;针对基于流抽样的超点检测方法存在计算负荷重、检测精度低、实时性差问题,提出超点检测的并行数据流方法;为了满足长持续时间流检测的高速网络应用需求,设计了基于共享数据结构的长持续时间流的并行检测方法和基于独立数据结构的长持续时间流的并行检测方法,基于独立数据结构的长持续时间流检测方法更好地满足高速网络的应用需求。实验验证了上述模型和算法的有效性。论文的主要工作和创新点为:(1)从流量突发性角度,提出峰值流量测度,分析网络行为和建立一种合理的容量规划模型,为新建校园网的接入带宽提供准确评估。首先,通过假设检验和拟合优度检验表明峰值流量服从渐近高斯分布,通过自相关性分析表明峰值流量间彼此相互独立;其次,研究网络内在特征对峰值流量的影响,一方面,通过统计学方法建立方差分析模型,研究接入带宽与峰值流量之间的关系,分析表明接入带宽对峰值流量的影响较小,另一方面,通过统计学方法建立协方差分析模型,研究接入带宽、网络用户数与峰值流量之间的关系,分析表明接入带宽与网络用户数存在较强的相关性,网络用户数是影响峰值流量的主要因子;最后,在上述分析的基础上建立线性回归模型及容量规划模型。通过实验验证容量规划模型的有效性。(2)针对网络流量分布的重尾特性和MapReduce算法中负载不均衡问题,提出了一种MapReduce框架下基于自适应抽样的大流识别方法。由于MapReduce框架中通过Hash函数按照分组将任务分配到每个reducer,如果分组服从均匀分布,那么每个reducer被分配相同的任务数,reducer之间是负载均衡的;如果分组服从偏态分布,那么每个reducer被分配不相同的任务数,导致reducer之间负载不均衡。另外,通过自适应抽样技术得到准确的流长分布估计,同时可以极大地减少所需的计算和存储资源。方法的实施中,一个MapReduce作业通过自适应抽样过程获得原始流长分布估计,在此基础上制定数据划分策略;另一个MapReduce作业通过数据划分策略指导大流识别。理论分析表明通过自适应抽样获得的流长分布估计是无偏的,通过配置参数可以控制流长分布估计的相对误差。实验结果表明,与默认的基于Hash函数的数据划分方法和TopCluster相比,提高了大流识别方法的性能,实现了reducer之间的负载均衡。(3)针对基于流抽样的超点检测方法存在计算负荷重、检测精度低、实时性差问题,提出了一种超点检测的并行数据流方法。随着多核处理器的发展,并行设计成为算法性能提高的一种有效途径。首先,为每个线程建立本地Sketch数据结构,当报文到达时,通过多个Hash函数运算,将Sketch数据结构中对应位置为1,当测量时间周期结束后,对多个本地Sketch数据结构进行合并;其次,估计节点的链接度,确定超列;最后,利用定理5.1对Sketch数据结构中任意两个超列的组合进行逆计算构造节点的IP地址,估计节点的链接度,如果节点链接度大于阈值,则认为该节点是超点。重复上述步骤,直到处理完所有的超列组合。性能分析和实验结果表明,该方法具有良好的检测精度和较低的开销。(4)为了满足长持续时间流检测的高速网络应用需求,在多核硬件平台上,从共享数据结构和独立数据结构角度设计长持续时问流的并行检测方法。由于基于共享数据结构的长持续时间流检测方法中不同线程之间共享数据结构(Cuckoo Hash表),共享数据结构读操作远多于写操作,引入读写锁来实现线程之间的同步,导致线程之间的同步开销过大,不能够满足高速网络的长持续时间流检测应用需求。针对上述问题,基于独立数据结构的长持续时间流检测方法为不同线程建立本地数据结构,从而线程之间不需要同步,且产生较少的开销。性能分析表明,基于独立数据结构的长持续时间流检测方法具有低的时间和空间复杂度。实验结果表明,该方法具有良好的时间效率,与相关方法相比,具有较好的检测精度和流持续时间估计。
其他文献
以国内某电厂亚临界一次再热、中储式热风送粉系统锅炉为例,介绍等离子点火燃烧器的基本原理,分析在锅炉停运时间小于3 d、粉仓预留有煤粉和锅炉停运时间长、粉仓无粉这两种
简述应用文的产生、发展和演变过程,分析得出应用文具有走向规范、简洁,实务的时代特点。针对应用文时代性所引发的一系列问题,提出相应的解决措施,有助于学习应用文的写作和
<正> 为纪念《中国语文》创刊50周年,《中国语文》编辑部于2004年编辑了《<中国语文>索引》(1952—2002),现已由商务印书馆出版。这本索引收录了《中国语文》从1952年第1期(
水是支撑我们生活每一天的重要资源。要落实科学发展观,强化水资源的科学管理与决策,这是积极推进循环经济,建设,节水型社会的需要,也是全面提高水环境质量的需要。
自上海迪士尼乐园开幕以来,其令人满意的成果为国内同行增光添彩,其效益和管理方法为中国主题公园的发展带来了新的启示。中国正在建设或规划的主题公园指的是这些主题公园,
未来的市场竞争使得企业日益需要联盟研发来维持生存和获得发展。从企业问联盟研发的信息共享角度出发,提出了M-SECI模型,接着探讨了企业间联盟研发信息共享系统的功能改进问
近来,人民币出现了持续贬值的趋势,这一现象对正处于转型期的我国经济究竟会产生什么样的影响是需要研究和思考的。本文首先分析了人民币贬值对我国经济正反两方面的影响,然