基于Spark的网络流量分类研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:popwoool20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,互联网飞速发展,网络规模呈指数增长,各种新型的网络服务层出不穷,网络组成也变得尤为复杂。网络流量分类(Network Traffic Classify,NTC)在分析用户行为、增强网络可控性、提高网络服务质量(Qualityof Service,QoS)和保障网络安全等方面起着至关重要的作用。随着互联网规模的持续扩大和性能的不断提升,当今大规模高速网络流量具有数据量大、多样性、传输快、价值密度低等特性;面对这些大规模高速网络的独有特性,传统的网络流量分类方法有些力不从心。为了能够迅速、准确地对大规模高速网络下的流量数据进行分类,本文利用决策树的相似性和权重集成策略对随机森林算法进行改进。通过计算决策树的相似度为依据,消除决策树之间的决策冗余,提高分类效率;依据决策树的分类性能为每棵决策树设定权重,并根据权重集成决策树形成随机森林,保证模型的泛化能力的同时提升模型分类性能。另外还利用流的启发式特点,引入强相关性指导聚合网络流量以此获得更好的分类性能。传统网络流量分类方法由于单机硬件资源的局限性都难以适用于大规模高速网络环境。因此为了突破单机资源的限制,文章使用Spark及其相关技术结合并行化的改进随机森林算法构建了适用于大规模高速网络环境下的流量分类系统。并且经过实验证明了系统良好的健壮性、可行性和可扩展性等;系统大幅度降低了分类时间,提高了分类效率。
其他文献
摘 要:在互联网时代的今天,知识技能的更新速度越来越快,对学习的便捷度、成本等要求也在不断的提高。从传统教育发展出来的远程教育方式,能满足“任何地方、任何人、任何时间、任何需要”,在教育资源相对稀缺的今天,是对传统教育良好的补充。但是远程教育发展的过程中,出现了不少的问题,同时也急需一些政策和理论的支持。笔者通过比较远程教育与传统教育的区别、了解远程教育的现状,据此思考了设计类专业在远程教育下发展
近年来,越来越多的商业银行着手将零售业务当作关键的业务增长方向,发展零售业务成为各商业银行的密切眷注的中心。同时,随着互联网金融的兴起与利率市场化改革的推进,我国商
鸡西市第十二次党代会提出,"鸡西未来的发展要‘高举绿色发展大旗’,努力把鸡西建设成为人与自然和谐相处、经济社会协调发展的绿色矿区、生态城市、宜居家园,建设成为黑龙江
本文将运用消费结构研究中应用最广泛的扩展线性支出系统 ,对新疆农村居民消费结构作一初步研究。更多还原
研究目的:通过检测胎龄≤32周极早产儿甲状腺激素水平,研究不同胎龄早产儿生后甲状腺功能特点;并通过临床研究探讨甲状腺功能对早产儿呼吸系统疾病的影响。资料和方法:本研究收集2016年1月1日至2017年12月31日青岛大学附属医院新生儿重症监护室(neonatal intensive care unit,NICU)住院的胎龄≤32周极早产儿398例为研究对象。(1)按胎龄分为24-26+6周(n=2