论文部分内容阅读
随着互联网的快速发展,网络应用如雨后春笋般出现在我们身边。网络的开放性和可扩展性使得人们在一定程度上,可以根据自己的意愿去设计和实现网络应用流的通信和传递方式。大量的应用流数据和各式各样的通信协议规则都为网络应用流量的管理带来巨大的挑战。
在对网络应用流量识别过程中,研究人员通过不断更新识别特征,改进识别算法以应对过去模型和方法对现有网络的缺陷和不足。但对现有的复杂网络流的识别仍存在以下挑战:特征选择代表性差、新类型不断出现泛化能力需求高以及识别准确的分类器模型的选择。为此,本文通过对现有的数据流量抓取和分析总结特征选择方法,以及对新类型的聚类标记实现对分类器模型泛化能力的实现,再选择与数据流特征相拟合的分类模型实现对数据流的准确分类。论文的贡献如下:
(1)选择应用层原文作为识别特征。通过对现有应用流的报文分析,我发现报文应用层信息对应用的类别判定具有很大的帮助。创新性提出使用应用数据流报文原文作为识别应用流的特征;根据对qq、微信、zello等应用的原文前50报文50字节对比和分析结果也印证了这个观点。所以本文提出的识别方法的特征选择使用部分报文的字节作为特征输入,相较于传统的基于数据报文、数据流特征的方法更具有适应性和代表性。
(2)实现了小规模标识数据对大量未标识数据的准确标注。标注过程使用半监督聚类的方法,通过对距离以及分类阈值的设置,实现了对类别判定的设置。聚类后通过人工标注的方法实现对未知类型的准确标识,使得模型输入数据不但有大量的标识数据,还会不断加入新类型的训练数据,大大提高分类器的适应性和扩展性。
(3)使用LSTM(Long Short-Term Memory)模型对分类器进行实现。通过对现有的网络数据流的分析,总结出网络应用通行过程中的时序性特点。根据时序性的数据特征,本文创新性的提出基于循环神经网络的识别算法。通过对循环神经网络的特性、结构以及工作原理的分析,并结合网络应用数据传播过程的规律,设计了符合网络的参数和函数,通过抓取的数据训练分类器模型,通过与传统的机器学习模型进行对比,证明了LSTM应用于网络数据流识别的可行性和适用性。
在对网络应用流量识别过程中,研究人员通过不断更新识别特征,改进识别算法以应对过去模型和方法对现有网络的缺陷和不足。但对现有的复杂网络流的识别仍存在以下挑战:特征选择代表性差、新类型不断出现泛化能力需求高以及识别准确的分类器模型的选择。为此,本文通过对现有的数据流量抓取和分析总结特征选择方法,以及对新类型的聚类标记实现对分类器模型泛化能力的实现,再选择与数据流特征相拟合的分类模型实现对数据流的准确分类。论文的贡献如下:
(1)选择应用层原文作为识别特征。通过对现有应用流的报文分析,我发现报文应用层信息对应用的类别判定具有很大的帮助。创新性提出使用应用数据流报文原文作为识别应用流的特征;根据对qq、微信、zello等应用的原文前50报文50字节对比和分析结果也印证了这个观点。所以本文提出的识别方法的特征选择使用部分报文的字节作为特征输入,相较于传统的基于数据报文、数据流特征的方法更具有适应性和代表性。
(2)实现了小规模标识数据对大量未标识数据的准确标注。标注过程使用半监督聚类的方法,通过对距离以及分类阈值的设置,实现了对类别判定的设置。聚类后通过人工标注的方法实现对未知类型的准确标识,使得模型输入数据不但有大量的标识数据,还会不断加入新类型的训练数据,大大提高分类器的适应性和扩展性。
(3)使用LSTM(Long Short-Term Memory)模型对分类器进行实现。通过对现有的网络数据流的分析,总结出网络应用通行过程中的时序性特点。根据时序性的数据特征,本文创新性的提出基于循环神经网络的识别算法。通过对循环神经网络的特性、结构以及工作原理的分析,并结合网络应用数据传播过程的规律,设计了符合网络的参数和函数,通过抓取的数据训练分类器模型,通过与传统的机器学习模型进行对比,证明了LSTM应用于网络数据流识别的可行性和适用性。