论文部分内容阅读
经过几十年的发展,互联网已经渗透到了社会的各个领域。伴随而来的是各种各样的网络入侵,几乎每天都在上演。而网络入侵检测作为计算机安全的一个分支,旨在自动有效地检测出网络中的入侵流量,并及时预警。基于机器学习的网络入侵检测是将网络入侵检测的问题建模成一个针对网络流量的分类问题,从而使用一些机器学习的方法训练出分类模型,进行分类预测,进而识别出入侵流量。机器学习的训练首先需要学习流量的特征,但是网络流量就有很多个维度的特征,使用过多的特征不仅会影响学习的效率,还可能会造成维度灾难,严重影响训练出分类器的效果。所以本文提出一种叫CFS-BSFLA(Correlation-based Feature Selection-Binary Shuffled Frog Leaping Algorithm)的特征选择方法,该方法使用基于特征关联性的指标对特征子集进行评估,并使用改进的混合蛙跳算法进行搜索,从而筛选出较好的特征子集。通过在CIC-IDS 2017数据集上进行仿真验证,将筛选出的特征子集在朴素贝叶斯、决策树、K最近邻、随机森林等常见的机器学习分类算法上进行学习和分类预测,并与其他常用的特征选择算法如信息增益,信息增益率等筛选出的特征子集进行对比,结果表明,该方法在决策树、随机森林、K最近邻算法中具有比较好的效果。由于网络流量中大部分是正常流量,只有一小部分是入侵流量,所以网络入侵检测中存在比较严重的数据不平衡问题。针对这一问题,本文提出一种双边界下采样方法,结合聚类边界分析和类别边界分析的思路,对数据集中的正常流量样本进行下采样,筛选出其中处于类别边界的流量和部分位于本类别内聚类边界的流量,从而使数据集中属于正常流量的样本数大大减少,并且使其中的具有代表性的样本得以保留。最后在CIC-IDS 2017数据集上进行仿真验证,并与随机下采样方法进行对比,验证了该采样算法的有效性。