基于特征词的网络流量分类方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sinbala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经成为社会基础设施,网络规模持续扩大,新应用不断涌现,对网络管理和安全提出挑战。网络流量分类(Network Traffic Classification)作为流量管理和安全防范最重要的基础技术之一,受到研究人员的广泛关注。  流量分类技术是按照特定的流量特征,识别数据包所属的应用协议类型。流量特征是流量分类的基础,特征词是当前流量分类中最有效的特征之一,目前广泛应用于基于深度包检测(DPI,Deep Packet Inspection)的流量分类系统中。然而,当前的特征词提取方法基本采用人工挖掘和简单的自动提取方法,无法满足效率与精确性要求。针对这些问题,本论文重点研究特征词产生,协议特征词选取和基于特征词的网络流量分类方法。论文的主要贡献如下:  1.针对当前的特征词产生方法无法深入理解负载内容中的隐藏语义、产生的特征词准确性差和冗余度高等问题,提出了一种无监督的流量负载分割算法SATP(SegmentationAlgorithm on Traffic Payload),用来从负载中自动产生准确精简的特征词。该算法基于自然语言处理技术的投票专家(Voting Experts)分词算法原理,在解决了统计稀疏网络数据带来的超大存储需求问题后,利用特征词独有的熵信息发现网络负载中特征词之间的边界,从而分割负载和产生特征词。实验结果表明,采用SATP算法对负载进行分割,能够有效发现负载中的相同特征词,使得分割后所有协议流量的负载描述长度均低于负载自身长度,其分割压缩比均大于1;在不降低特征词准确性的基础上,产生的特征词个数比基于n元组的产生方法低一个数量级,比基于公共子串的产生方法低两个数量级。  2.针对当前协议特征词提取方法对输入参数敏感和无法在大规模输入流量下选择协议特征词的问题,提出了一种基于规则打分的协议特征词提取算法ProWord。该算法首先将选择协议特征词常用的频率、位置和字长等逆向工程经验构建成相应的打分规则,然后基于这些打分规则生成排序模型,最后从候选特征词集合中自动挑选出得分最高的前k个特征词作为协议特征词进行输出。实验结果表明,ProWord提取的前100个特征词中能捕获到82-94%左右的协议特征词,其捕获到的协议特征词个数是传统提取方法的2-3倍,而且捕获到的协议特征词简洁度(Conciseness)均低于传统方法,在执行速度上比先前工作ProDecoder快40倍。此外,ProWord还能在混杂数据中为不同协议提取协议特征词。  3.针对当前的流量聚类方法采用流量外部属性作为流量特征,不能深入流量的内容特征进行聚类,存在应用类型细分不足的问题,本文提出了基于特征词的流量聚类方法TCBFW(Traffic Clustering Based on Feature Word)。该方法首先基于SATP算法分割负载得到的特征词构建出代表流负载内容的低维度特征向量;然后通过合理加权特征向量中的子特征来定义流相似度函数,量化各特征向量之间的距离;最后提出部分采样和核心特征标注的处理结构,基于特征向量和相似度函数,实施规模化的流量聚类。实验结果表明,TCBFW能有效聚类划分存有内容差别的协议类型,对于14种现有网络中的主要应用协议流量,TCBFW采用ROCK和DBSCAN聚类算法在提取数据集上分别获得了99.0%和90.5%的总准确率,而在混杂数据集上分别获得了85.3%和75.9%的总准确率。
其他文献
随着网络技术发展,网络应用趋于语音、数据和视频融合,新一代VoIP技术在专网组网中得到普便推广。基于网络的语音通信比传统电话有费用少、节省带宽和业务灵活的优点。各企事业
多核与虚拟化的发展,数据规模的增长,以及新的计算模式的出现,对内存容量提出了不断增长的需求。然而,DRAM系统的扩展性却受到了封装、工艺和信号完整性问题的限制,尤其以信号完整
随着移动通信技术的快速发展,国内移动网络运营商也在加紧对3G网络的部署和运作。为了保证第三代移动通信系统中核心网(CN)的安全,防止外部Internet网络的攻击,以及保护移动终端
随着Internet迅速发展,网络软件平台已成为当今软件技术发展主流趋势和竞争焦点,其核心和关键是位于中间层的Web应用服务器。Web应用服务器是在Web计算环境下产生的一种新型中
学位
网格计算是分布式计算的一种,随着网格应用的发展,网格技术被逐渐应用到科学研究的各个领域中。网格计算资源共享的思想与生物信息计算环境Weblab“一站式”服务的思想不谋而合
本文对可扩展的应用服务器架构的设计与实现进行了研究。主要内容如下: (1)分析了容器、公共服务和底层通信的关系,提出了一种改善系统结构的解决方案,能便利系统的维护、更
随着信息社会数据量的日益增加,人们迫切需要有效的数据挖掘来发现其中的知识。数据挖掘的好坏不仅决定于挖掘的算法有效性,更决定于待挖掘数据的质量。数据预处理可以为数据挖
随着Intemet的普及和社会信息化的不断发展,越来越多的商业应用系统被开发和部署到各商业企业和公共服务部门中,在社会生活的各个领域扮演重要角色.机群计算环境(Cluster Com
随着嵌入式系统领域不断增长的应用需求,嵌入式系统的复杂性日益提高。作为一款优秀的、开源的操作系统,Linux在嵌入式领域的应用也越来越广。随着Linux内核的不断丰富以及应用
信息技术飞速发展,计算机审计取代过去传统的手工审计,成为现代审计领域的热点技术。我国从20世纪90年代末大力推广计算机审计以来,已取得很大的进步,多种审计软件问世,某些领域取
学位