大规模网络数据分位数估算算法研究及分析

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yangfei223752
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,海量网络流量的统计分析和数据挖掘均对大数据处理技术提出了更高的要求,即不再满足于离线数据的批处理,而是要求对数据流进行近似实时的计算。在分析网络数据流的分布特性时,常用的策略不是直接计算其累积分布函数,而是生成相应的分位数序列。在数据管理和分析领域,分位数计算是一种生成数据集合分布信息的通用方法。尽管在过去半个世纪中,分位数的计算方法已经吸引了大量的研究和分析,尤其是当数据项元素持续到达因此我们必须使用数据流模型计算的情况下。但在计算网络数据流的分位数时,目前的流式分位数估计算法仍存在以下缺点:(1)网络数据通常呈现明显的重尾分布特性,在数据分布稀疏的尾部分位数估计误差会明显增大;(2)可扩展性低,海量的网络数据远超于传统算法的吞吐量,难以满足实时性。为了解决大规模网络数据流的分位数估计问题,本课题首先详细地研究目前几种主流的分位数估计算法的设计思路和优缺点;接着介绍了一种新型的利用非线性函数进行插值的增量分位数估计算法(下文简称IQN算法),通过引入对数高斯混合模型对数据流的累积分布函数进行拟合,从而降低插值时给尾部分位数带来的估计误差;然后通过大量的测试实验对IQN算法的性能进行优化,并证明了对于呈现重尾分布的数据集合,IQN算法比传统的分位数估计算法具有更高的估计精度;最后基于Spark计算平台实现IQN算法的并行化版本,验证了其可扩展性和准确性,以及结合Kafka和Spark Streaming等流式计算系统在实际网络环境中设计并部署了一个高性能的实时网络时延分位数估计系统,验证了基于IQN算法计算大规模网络数据流的分位数的可靠性。本课题设计的IQN算法将为实时计算网络数据流的分位数序列提供良好的参考。
其他文献
现代化选煤厂应基于通讯技术、计算机技术、信息处理技术、多模式人机交互技术等,建立以网络为支撑,信息管理为核心,监控与管理实现一体化的以信息技术为手段的集成网络系统。实
目的回顾性分析昆明医科大学第一附属医院心脏大血管外科双瓣置换术中应用Del-Nido停搏液与冷血停搏液的心肌保护效果。方法选取2018年5月至2019年3月昆明医科大学第一附属医
近年来电力系统得到了全面的发展,而电力系统的发展势必设计到电厂建设的增加,而电厂建设过程中,电气安装的施工过程是最为主要的环节,其施工质量如何将直接影响到电厂的整体
针对铬污染软黏土自行设计了电动修复试验装置,开展铬污染软土室内试验,研究污染土中重金属铬的去除特性,分析电动修复过程中,电流、温度、电解质溶液pH的变化以及电压、温度
伴随着我国经济建设的不断发展,我国水利工程建设也有了长足的发展。伴随着水利工程建设的不断增多,水利工程设计工作也面临着非常大的挑战。为了保障水利工程建设过程中更好
选用Chlorella pyrenoidosa(FACHB-5)为试验藻种,以未灭菌猪场废水与BG11培养基混合物为小球藻培养液,研究废水添加比、初始pH和光照强度对小球藻生物量和氨氮去除率影响。在
如何改进思想政治理论课主渠道,将思想价值引领贯穿到教育教学全过程和各环节,加强和创新课堂教学,处理好供给与需求的关系是关键。我们要以开放的视野和创新的思路,加强“供
以问题驱动的方式提出与专业相关的彩票中奖和保险赔付典型案例,设计解决方案、寻找解决办法,通过使用Excel工具解决问题。
溆浦县委县政府在今年全县农村工作会议上,对伍联农机合作社、绿之然农机专业合作社、永丰农机专业合作社、农丰农机合作社等各奖励5万元。这是县委县政府为了鼓励农机专业合
乌贼骨丸出自《素问·腹中论》,主治“血枯”病。其方法用乌贼骨四分,茜草一分,二药研末,以麻雀卵和丸,如小豆大,每次饭前服五丸,鲍鱼汤送下。笔者在临床运用乌贼骨丸加味,