论文部分内容阅读
近年来,随着互联网业务的迅速发展,以P2P为代表的新业务占用大量网络带宽,降低了网络性能,并且给网络安全带来了极大的隐患。有效的流量识别对于网络管理,网络安全规划等有着重要意义。因此,流量识别问题日益成为研究热点。本文主要是研究利用聚类分析技术进行应用层流量识别。在详细分析流量识别技术研究现状的基础上,提出两种改进算法,分别为基于改进K-means的流量识别算法和基于遗传聚类算法的流量识别算法。通过实验证明了上述两种改进算法的有效性。本文的主要创新工作如下:提出基于改进K-means的流量识别算法。K-means算法用于流量识别中存在三点不足:一是随机选取初始中心点,导致聚类结果具有不稳定性;二是计算流量之间相似度时认为每个属性表示的作用都是相同的,而一些流量如P2P在传输的字节数和持续时间等属性上能明显区别于其他流量.,故同等看待属性作用会影响识别效果,降低识别精度。三是流量矩阵存在大量相关属性,影响了算法的效率。针对以上问题,提出一种基于改进聚类算法的流量识别方法,方法中提出一种新的初始中心点优化算法,并引入奇异值分解(简称SVD)技术对流量矩阵进行简化,减少相关属性并提高识别精度,同时引入权的概念,为每个属性分配权值,表示各属性在计算相似时的作用大小。实验表明,新提出的算法可以提高流量的识别精度。提出基于遗传聚类的流量识别算法。针对K-means算法中要求事先给出聚类数k,而不准确的k值会导致聚类质量下降的问题,将遗传算法和改进的K-means算法相结合提出了一种遗传聚类算法,将聚类数目k的取值范围作为搜索空间,用改进K-means算法的准则函数构造适应度函数,利用遗传算法找出最优的聚类数目,解决了类别数k的问题,提高了流量的识别精度,优化聚类性能。最后,利用Winpcap库,从数据集中提取流量,形成流量矩阵,建立流量识别平台,并在其基础上,分别对改进K-means的流量识别算法和遗传聚类算法进行实验和分析。实验结果表明:两种改进的算法提高了流量识别的精度,并且降低了在线运算时间复杂度,改善了流量识别的服务质量。