论文部分内容阅读
随着互联网用户群体急剧增长,网络规模迅速膨胀,网络业务类型也变得愈加复杂。为了提供安全、可靠的网络环境,对网络进行高效管理刻不容缓。作为网络管理的核心技术,网络流量识别能够为网络行为分析、带宽资源分配、网络运营管理和网络架构改进提供有力的数据支撑。然而,传统的基于端口号、基于深度包检测和基于行为特性的流量识别方法已经不能满足当前网络流量识别的需要。近年来,人工智能发展迅速,机器学习不断成熟,已广泛应用于各个领域。利用机器学习算法进行网络流量识别,既能保证识别的准确性,又能保证系统的鲁棒性。因此,开展基于机器学习的网络业务流量识别技术研究具有重要的学术价值和应用前景。由于网络流量数据规模庞大、特征属性众多,为了提高流量识别效率,需要进行特征选择以约简特征集合,同时业务流量的类不平衡现象也为流量识别带来了极大的挑战。论文提出了一种基于加权对称不确定性的多阶段特征选择算法,该算法分多阶段筛选特征,首先基于加权对称不确定性计算类别权重平衡多数类与少数类,缓解类不平衡现象并剔除不相关特征;然后基于皮尔逊相关系数判断特征之间的相关程度,筛选掉冗余特征;最后采用禁忌搜索策略寻找最优特征子集。理论与仿真实验表明,该算法实现了网络流量的快速降维,与近年来提出的基于机器学习进行特征选择的算法相比,在特征维度、分类速度和识别精度等方面都表现出较大优势。尽管特征选择有效降低了特征维度,简化了机器学习任务,但使用单分类器进行网络流量识别的稳定性稍显不足。而且,网络流量随着时间推移常常产生概念漂移现象,这对流量识别而言是个极大的考验。为了减弱概念漂移对系统识别性能的影响,论文提出了一种多分类器集成学习算法。该算法基于Bagging集成学习框架,将数据流划分为连续子块,引入自适应窗口机制检测网络流量中的概念漂移,动态调整融合分类器中各基分类器的权重,采用增量学习的策略更新系统模型,组合优化分类结果输出最终预测的应用类别。论文通过实验确定了网络流量数据块的最佳规模和基分类器的最佳数量,理论与仿真实验表明,与单分类器算法和传统的Bagging算法相比,该算法可有效应对概念漂移,提高流量识别的准确性和稳定性。