论文部分内容阅读
随着互联网技术的快速发展,计算机及网络资源逐渐成为社会公共基础设施的重要组成部分。然而,随着相关技术进步,攻击者也不断创造出新的方法入侵网络,网络攻击的数量和危害程度急剧增加,给网络安全带来了巨大的挑战。虽然防火墙和软件更新等静态防御机制可以提供一定的安全保障,但某些攻击并不受防火墙的控制,因此需要采用更多的动态安全机制。入侵检测作为一种动态防御技术,通过监控计算机系统和网络中的数据来识别攻击行为。
近年来,许多研究人员提出将机器学习和数据挖掘算法应用于入侵检测,克服了传统的入侵检测技术手动构建检测规则效率低和对未知攻击检测效果差等缺陷,可以从海量的审计数据中快速构建出入侵检测规则,并且对未知攻击具有更好的检测能力。本文主要研究了基于机器学习的入侵检测方法。
首先,本文对近年来提出的入侵检测方法进行了深入研究,总结了入侵检测领域目前面临的问题。介绍了入侵检测的基本概念和几种分类方法以及入侵检测的基本框架。简要介绍了机器学习的基本概念和相关理论。
其次,对入侵检测领域使用最广泛的数据集KDDCUP99进行统计分析发现了一个重要问题,训练集中样本类别比例严重失衡,这会使训练出的分类器偏向于多数类别或频繁类别,导致对少数样本类别的召回率较低。针对上述问题,本文对已有的不平衡数据集学习方法深入研究,基于SMOTE算法提出了Boundary-SMOTE算法。利用该算法合成少数类别样本,使得训练集中样本类别比例达到合理水平,同时克服了SMOTE算法容易产生噪声数据的缺点。
然后,由于KDDCUP99数据集的特征具有非线性特点,基于相关性特征选择、信息增益和增益比方法等主流的特征选择方法在该数据集上进行特征选择时会丢失一些重要信息,导致训练出的分类器检测效果不理想。针对该问题,本文提出了一种基于特征重要性的特征选择方法FIBSM,不仅保持了较高的准确率,而且显著降低了模型训练和预测的时间。
最后,使用XGBoost作为分类器,本文提出了一个基于Boundary-SMOTE、FIBSM和XGBoost的入侵检测方法。在KDDCUP99数据集上进行实验仿真,结果表明本文提出的方法检测速度快且保持较高整体正确率的同时,大大提高了少数类的召回率,从而表明本文对入侵检测领域的研究具有重要意义。
近年来,许多研究人员提出将机器学习和数据挖掘算法应用于入侵检测,克服了传统的入侵检测技术手动构建检测规则效率低和对未知攻击检测效果差等缺陷,可以从海量的审计数据中快速构建出入侵检测规则,并且对未知攻击具有更好的检测能力。本文主要研究了基于机器学习的入侵检测方法。
首先,本文对近年来提出的入侵检测方法进行了深入研究,总结了入侵检测领域目前面临的问题。介绍了入侵检测的基本概念和几种分类方法以及入侵检测的基本框架。简要介绍了机器学习的基本概念和相关理论。
其次,对入侵检测领域使用最广泛的数据集KDDCUP99进行统计分析发现了一个重要问题,训练集中样本类别比例严重失衡,这会使训练出的分类器偏向于多数类别或频繁类别,导致对少数样本类别的召回率较低。针对上述问题,本文对已有的不平衡数据集学习方法深入研究,基于SMOTE算法提出了Boundary-SMOTE算法。利用该算法合成少数类别样本,使得训练集中样本类别比例达到合理水平,同时克服了SMOTE算法容易产生噪声数据的缺点。
然后,由于KDDCUP99数据集的特征具有非线性特点,基于相关性特征选择、信息增益和增益比方法等主流的特征选择方法在该数据集上进行特征选择时会丢失一些重要信息,导致训练出的分类器检测效果不理想。针对该问题,本文提出了一种基于特征重要性的特征选择方法FIBSM,不仅保持了较高的准确率,而且显著降低了模型训练和预测的时间。
最后,使用XGBoost作为分类器,本文提出了一个基于Boundary-SMOTE、FIBSM和XGBoost的入侵检测方法。在KDDCUP99数据集上进行实验仿真,结果表明本文提出的方法检测速度快且保持较高整体正确率的同时,大大提高了少数类的召回率,从而表明本文对入侵检测领域的研究具有重要意义。