基于机器学习的即时通信流量识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:augustS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息化的建设,网络用户数量和网络应用规模不断扩大。与此同时,网络流量急剧膨胀,网络流量中充斥着各种不安全因素,使得信息安全难以保障。如何准确地识别流量以达到对网络的监管作用,成为当前网络安全研究的重点。即时通信具有高实时性和低成本性的特点,它的出现改变了人与人之间的沟通方式,其流量占据了网络流量的很大一部分。不同的即时通信软件出于对自身的功能与性能需求等因素考虑,一般采用私有协议和加密协议传输数据来保证数据传输的安全,增加了流量识别的难度。因此,为了达到有效的网络管理、舆情监控、国防安全等目的,需要对即时通信流量进行有效地识别。传统的网络流量识别方法主要有:基于端口的识别方法,基于深度包检测的识别方法和基于用户行为特征的识别方法。随着人工智能的兴起,机器学习也经常被应用到流量的识别中来。由于端口复用技术的使用,导致基于端口的识别方法逐渐失效;而基于用户行为特征的方法由于识别类型单一,应用范围有限;较为常用的是基于深度包检测的方法,但其无法分析加密流量,特别是网络规模很大时,该技术无法满足实时性及准确性的要求。网络通信技术及各类应用软件的更新换代,导致传统的检测方法无法再起到很好的识别效果。但基于机器学习的方法可以对复杂行为进行描述,降低了建模的难度,成为当前的研究热点。针对上述问题,本文使用机器学习的方法对即时通信流量识别展开研究。通过对近年来流量识别相关领域的研究进展进行分析,提出了一个基于机器学习的即时通信流量识别方案,该方案通过提取即时通信流量中的心跳行为作为分类的特征来识别不同的即时通信协议。通过对即时聊天软件通信流量特点分析发现,不同即时聊天软件长连接中的心跳行为具有很大的差异性,一个心跳过程在包间隔时间和包大小两个方面有很明显的特征,而其他数据包的行为则具有很高的相似性。通过去除其他不具有区分度的数据包,可以明显的提高识别的精确度。本文提出了两种心跳包提取方法:基于统计的心跳包提取方法和基于关联规则挖掘的心跳包提取方法。基于统计的心跳包提取方法通过计算不同大小包簇的相似度来提取心跳过程;基于关联规则挖掘的心跳包提取方法是通过挖掘包之间的关联规则来提取心跳过程。本文首先对阿里旺旺、微信、钉钉、QQ等四款常用的即时通信软件进行了数据采集,对他们的心跳行为进行了分析,然后使用本文所设计的方案分别提取了这四种应用长连接中的心跳包,在特征提取部分提取了心跳过程的行为特征,采用递归特征消除RFE剔除了无用特征,以提高模型的计算速度和泛化能力。最后选取多种机器学习分类算法进行建模和测试,实验结果表明本方案通过提取心跳行为最高可以实现99%的识别准确率,弥补了现有工作在准确率等指标上的不足。
其他文献
近年来,应用字典学习进行图像去噪备受广大学者关注.字典学习的基本过程主要是通过自适应学习方法对给定的样本集进行学习从而得到最优的原子集合,再采用较少原子间的线性组合来表示训练样本,常用的字典学习方法有DCT(Discrete Cosine Transform)离散余弦变换算法,MOD(Method of Optimal Directions)字典学习算法、以及K-SVD算法等.然而它们均未考虑字典
高中思想政治必修四课程《生活与哲学》可以说是高中生初步接触哲学教育的开始,通过对《生活与哲学》中唯物史观的教学研究,对高中生树立正确的世界观人生观和价值观具有重要意义。唯物史观是马克思主义哲学的重要观点,它正确分析了社会存在和社会意识的辩证关系,揭示了人类社会历史发展的基本规律,坚信人民群众才是社会历史的主体,和唯心史观有着本质区别。唯物史观的不同之处在于实现了实践基础上的科学性与革命性的统一,是
无线传感器网络作为一种新兴的无线网络技术,具有非常广阔的应用和发展前景。然而,其本身具有的能量有限,计算存储能力较弱等特点,使得其具有一些与普通的信息网络不同的需求
我国已经进入长期护理保险试点工作的第二阶段,预计十四五规划期间形成全国长护险制度框架。然而目前我国各试点城市失能认定对象不统一,失能等级评估量表、失能等级分级标准、定点评估机构选择参差不齐,反映了我国长护险失能认定工作有待完善。失能认定工作是长护险顺利实施的关键环节,其评定结果不仅与老年人最终的待遇给付挂钩,也与长护险基金能否实现可持续发展有关。鉴于中日韩三国引入长护险的背景都存在严重老龄化、高龄
近年来,高涨的机动车拥有量和高频率的客运出行给交通基础设施带来了严重负担,对道路容量提出了更高要求。面对这种交通需求的过快增长,我国政府和交通运营管理部门也做出了相应的努力。然而,不论是哪个层面的努力都只侧重于针对城市主循环系统进行拓展或完善,而忽略了支路系统的建设,使得城市内各等级道路不能高效合作,交通设施不能最大化利用。针对这一问题,有学者开拓了解决城市交通拥堵的新的探索方向——实现城市交通微
学位
研究目的1、了解2016年苏州大学附属儿童医院14岁以下儿童因病住院情况及疾病的主要诊断。2、分析2016年苏州大学附属儿童医院因病住院儿童的性别、年龄段的分布及其差异,研
湖南益阳历史悠久,文化灿烂,艺术繁荣。益阳是民歌的海洋,不仅种类繁多,而且特色鲜明,素有“民歌之乡”的美誉。益阳民歌是民间艺术的瑰宝。由于市场经济的冲击,青壮年都外出务工,民间歌手逐渐老化,益阳民歌面临后继无人、濒临失传的境况。事实上,益阳民歌是当地重要的非物质文化遗产,继承与弘扬十分重要且有意义。而在益阳地区的初中开发与实施校本课程“益阳民歌”无疑是重要的举措。校本课程能有效整合现有教育优秀资源
现代工业和科技的发展不仅给人们的生活带来了诸多便利,同时也使人们的生活习惯发生了巨大的变化。研究表明,很多慢性病的发生都与人们长期的不良行为习惯有关系。为了预防这
分布式优化是多智能体协同的主要问题之一,因在传感器网络、机器学习等领域的众多应用得到广泛的关注,是当前信息领域的研究热点。但现有工作大多从数学规划的角度出发,研究
图像聚类是近年来机器视觉和图像处理领域关注的热点,如何快速准确地获取图像数据提取有效信息引起了广泛的研究。随着计算机技术的快速发展,图像只有转化成有用的信息才能发挥更大的价值。然而,现实应用中的图像数据具有数量庞大、包含混合噪声且结构复杂的特点。现有的聚类算法不能很好地处理日益增长的高维图像,用于复杂结构数据的聚类算法也存在一定的缺陷。针对不同的图像数据结构和类型,设计出准确率高、运行速度快的聚类