基于半监督学习的网络应用流识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:panxihuanhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络应用如雨后春笋般出现在我们身边。网络的开放性和可扩展性使得人们在一定程度上,可以根据自己的意愿去设计和实现网络应用流的通信和传递方式。大量的应用流数据和各式各样的通信协议规则都为网络应用流量的管理带来巨大的挑战。
  在对网络应用流量识别过程中,研究人员通过不断更新识别特征,改进识别算法以应对过去模型和方法对现有网络的缺陷和不足。但对现有的复杂网络流的识别仍存在以下挑战:特征选择代表性差、新类型不断出现泛化能力需求高以及识别准确的分类器模型的选择。为此,本文通过对现有的数据流量抓取和分析总结特征选择方法,以及对新类型的聚类标记实现对分类器模型泛化能力的实现,再选择与数据流特征相拟合的分类模型实现对数据流的准确分类。论文的贡献如下:
  (1)选择应用层原文作为识别特征。通过对现有应用流的报文分析,我发现报文应用层信息对应用的类别判定具有很大的帮助。创新性提出使用应用数据流报文原文作为识别应用流的特征;根据对qq、微信、zello等应用的原文前50报文50字节对比和分析结果也印证了这个观点。所以本文提出的识别方法的特征选择使用部分报文的字节作为特征输入,相较于传统的基于数据报文、数据流特征的方法更具有适应性和代表性。
  (2)实现了小规模标识数据对大量未标识数据的准确标注。标注过程使用半监督聚类的方法,通过对距离以及分类阈值的设置,实现了对类别判定的设置。聚类后通过人工标注的方法实现对未知类型的准确标识,使得模型输入数据不但有大量的标识数据,还会不断加入新类型的训练数据,大大提高分类器的适应性和扩展性。
  (3)使用LSTM(Long Short-Term Memory)模型对分类器进行实现。通过对现有的网络数据流的分析,总结出网络应用通行过程中的时序性特点。根据时序性的数据特征,本文创新性的提出基于循环神经网络的识别算法。通过对循环神经网络的特性、结构以及工作原理的分析,并结合网络应用数据传播过程的规律,设计了符合网络的参数和函数,通过抓取的数据训练分类器模型,通过与传统的机器学习模型进行对比,证明了LSTM应用于网络数据流识别的可行性和适用性。
其他文献
臭氧层破坏与温室效应的不断加剧,使得应用自然工质CO2的应用研究成为世界的研究热点。针对CO2带膨胀机热泵循环系统中的关键问题,本文应用FLUENT和EES两种模拟计算软件和实验的方法研究了CO2快速降压过程和CO2滚动活塞式膨胀机的工作过程。  为了能够对CO2快速压降过程进行直接观测,本文进行了可视化实验。由实验结果可以看出,随着放气过程的进行,试块内部压力与温度均呈凹曲线减小。初始压力越高,
基于节能减排的背景和发展趋势,CO2制冷空调和热泵具有很好的应用前景。通过理论分析与试验测试相结合,本文重点对CO2跨临界双级循环进行研究与分析,为探寻高效、稳定运行的CO2跨临界循环方式提供基础资料。运用热力学方法,在三种CO2跨临界单级循环基准上,分别对六种双级循环进行了理论分析。结果表明,带膨胀机双级循环性能普遍优于带节流阀循环,双级循环优于单级循环,中间冷却器和回热器对循环效率的提高都有贡
超级电容器作为介于传统电容器和电池间的一种新型储能元件,具有比容量高、功率密度高、循环稳定性好、充放电速度快、环境友好等优势。全固态超级电容作为一种新兴的超级电容,采用了以凝胶为主的固态电解质,克服了传统液态电解质不易储存、易泄露、安全性低等缺陷,且促进了可穿戴柔性超级电容的发展,逐渐成为国内外研究重点。  本文首先制备了在不同条件下制备了三种电化学性能较为突出的金属氧化物赝电容电极材料,运用电子
该文首先介绍了轴快流CO激光器及其加工系统的现状和发展趋势,从而提出了轴快流CO激光器控制系统的功能及要求.详细分析了轴快流CO激光器的控制系统的工作过程及原理,着重研究了气压控制系统以及功率控制系统的原理,提出了按偏差调节的气压稳定调节系统、以及放电电流与激光功率反馈的双闭环功率控制系统.在这些分析与研究的基础上,设计出了以S7-226为核心的控制系统的电气控制原理图,在程序设计上,采用模块化方
学位
该课题的研究目标旨在得到一种能快速、精确地计算脊波导中主模及各高次模K的有效方法,并编制相应的程序.在广泛查阅国内外相关资料的基础上,反复比较,该文采用了模式匹配法的横向谐振技术以得到有关K的特征方程.编制求根程序时,使用Fortran语言,用牛顿法求根,得到的结果与国外权威刊物上发表的数据进行了比较,相当一致;利用该文的结果制作了一个脊波导滤波器,理论模拟曲线和最后的实测曲线相当吻合.
学位
随着科学技术的发展以及工程机械系统自动化程度的提高,现代工程实际系统日趋复杂化,且对系统控制性能的要求、作业任务的难度不断加强。其中,极具代表性的下三角非线性系统的控制问题,受到了国内外诸多学者的广泛关注,并取得了大量的研究成果。本文主要采用递归设计方法,基于确定性系统和随机系统Lyapunov稳定理论,依次研究了下三角确定性非线性系统、下三角随机非线性系统,以及下三角非线性多智能体系统的控制器设
随着计算机科学的快速发展以及医疗领域对大脑神经科学的深入研究,脑机接口(brain-computer interaction,BCI)成为一种新型的人与外界环境的交互方式,吸引广大学者的研究热情。BCI不依赖任何动作信息、语言信息和视觉信息的参与,能将 EEG 信号转换为相应的指令来实现与外界的交流与控制。目前BCI系统的应用范围越来越广,涉及到医疗患者康复、医疗疾病诊断、作业安全高效、军事装备和
目前,云平台根据服务提供商和用户之间签订的服务水平协议(SLA)为用户提供付费服务,云平台提供商为了提供高质量的服务引入体验质量(QoE)指标,该指标包含用户关于服务质量(QoS)和用户需求的反馈信息.但有些贪婪的用户为了获取超出SLA以外的服务,故意提供错误的反馈信息,影响到QoE收集的准确性,因此,云平台提供商必须监控QoE指标,并根据该指标提供更好的服务.目前,已有研究者对云平台QoE的监测
学位
为了处理现实问题中所包含的不确定性,在过去的几十年中,研究者们构造了一系列的数学模型,例如:模糊集模型、粗糙集模型以及软集模型。其中,软集模型具有包含参数化工具的特点。通过使用软集模型,人们便于从不同的属性(参数)的角度对同一事物(问题)进行刻画与分析,也便于从不同的属性(参数)的角度对事物(问题)所包含的不确定性进行研究。将软集模型与其他理论模型相结合,可以得到软集的扩展模型。软集的扩展模型顺承
随着互联网规模的飞速发展,网络传输的数据量也在不断增加,日益增长的网络数据对网络带宽和服务器性能提出越来越高的要求。所以,网络数据分发的实时性与可靠性是一个需要解决的问题。  同时,随着网络规模和网络用户数量的不断增加,网络请求往往聚集在少数网络资源上,这就导致了网络请求的负载不均。面对这种情况,如何将一些热点资源迁移到网络低负载区域的节点上,在一定程度上实现网络资源的负载均衡也是一个急需解决的问