论文部分内容阅读
随着网络大数据技术的快速发展,网络应用程序种类越来越多,产生的数据量急速上升,给网络管理带来了巨大的挑战。基于网络流量数据的应用程序智能分类与识别一直是学术界和工业界关注的焦点,也是网络管理、安全保障和服务提升的重要基础。传统的基于端口识别和负载分析的方法对新型复杂网络流量分类效果渐微。因此,本文将研究进一步提高网络应用程序智能分类与识别的精度的新方法。完成的主要工作如下:(1)对网络应用程序产生的网络流量过程进行研究,提出一种基于等价流的聚类标签传播算法,解决了在网络应用程序中各类网络流量数据存在标签少、标记难、人工标注不精确等问题。该算法既可精确的标记网络数据包和网络流,又可标记相似应用程序的等价流,实现了流量标记和标签数据集扩充。实验表明该算法有效提升了应用程序的分类与识别精度。(2)针对应用程序识别的特征单一、关联性低、分类精度低等问题,提出一种基于双向流的聚合流特征应用程序识别算法。该算法可将应用程序的双向网络包及网络流和相似包流信息聚合提取综合性特征,可提取四大类特征,并基于随机森林建模验证该方案的可行性。此外,为提升网络流量分类精度和降低训练难度,提出一种基于联合关联的特征子集算法完成特征提取,从而挖掘出更高效的特征集,实验表明分类准确率可达到99%。(3)为增强应用程序各个层面的特征关联性,提出一种卷积神经网络的多时空特征和随机森林相结合的CNN-RF应用程序识别算法。该算法基于三维度的网络流特征矩阵向量,用卷积神经网络提取网络流的局部高层特征,再利用随机森林用于高效学习高维特征,同时加入激活函数,用ReLU函数可增强网络模型的非线性表达力和泛化能力,从而实现对应用程序的智能分类与精准识别。