论文部分内容阅读
计算机网络的飞速发展,不仅方便了人们的工作、学习和生活,同时也是人工智能时代的重要特征之一。这是因为实现全世界的互联互通早已是人们的梦想,而人们正努力将这一梦想转变为现实。然而,由于计算机系统的先天缺陷,安全问题层出不穷。各种安全漏洞、病毒、以及针对计算机系统的非法入侵行为,或多或少地造成了损失。而大数据时代的到来,会增加计算机系统入侵的可能性,且入侵手法也异常多样,这加大了对计算机系统的防护难度。将机器学习方法引入到入侵检测领域是一个不断创新的课题。近年来,随着深度学习的流行,不仅将人工智能推向了高潮,同时也扩充了基于机器学习的入侵检测方法。相对于传统的浅层学习方法,利用深度学习方法进行特征提取的最大特点在于不需要人工选取特征,这既是优点也是缺点。优点在于利用深度学习能够自动地提取特征,但潜在的缺点在于深度学习方法的特征提取模式类似于一个“黑盒子”,人们很难能了解到这其中的结构。因此,将深度学习方法与传统浅层学习方法在特征提取方面实行互补,能有助于提升分类器的分类性能。全文完成以下工作:首先,提出了一种分段核函数(Piecewise Radial Basis Function,P-RBF)。该核函数仍然以径向基核(Radial Basis Function,RBF)为基础,只是根据特征的样本中的样本方差是否为0进行分段变换:当特征在样本中的样本方差不为0时,对特征嵌入其均值和样本方差进行归一化变换;而当特征的样本方差为0时,直接对特征取值为0,以令其收敛。在基于支持向量机(Support Vector Machine,SVM)的入侵检测方法中选用P-RBF核与RBF核,并对它们的检测率、准确率和误报率做比较。实验表明,在基于支持向量机的入侵检测方法中选用分段核函数,能通过分段变换有助于克服特征取值差异过大的情况,能相对提升准确率、检测率和误报率。其次,在基于支持向量机的入侵检测方法的基础上,引入栈式自动编码机(Stacked AutoEncoder,SAE)做特征提取器,并探究SAE-SVM(Stacked AutoEncoder Support Vector Machine)方法的可行性。在SAE-SVM方法中仍然选用分段核函数P-RBF和RBF两种不同的核函数。对SAE-SVM方法而言,虽然选用SAE做特征提取器能够通过降维提升检测性能,但是同样因为分段核函数的分段变换机制,缩小了特征内部和特征之间的数量级差别,因而SAE-SVM-P-RBF(Stacked AutoEncoder Support Vector Machine based on Piecewise Radial Basis Function)方法在SAE-SVM方法中效果最好。最后,为了探索混合特征提取方法的可行性,选择随机森林(Random Forest,RF)对41个原始特征按重要程度进行排序,并去掉重要程度最低的特征。考虑到选用分段核函数P-RBF在SAE-SVM分类方法中有好的效果,将经初步处理的特征用栈式自动编码机进行特征提取,并用支持向量机分类,且在支持向量机中选用分段核函数P-RBF。实验表明,在去掉重要程度最低的特征后,混合分类方法RF-SAE-SVM-P-RBF(Random Forest Stacked AutoEncoder Support Vector Machine based on Piecewise Radial Basis Function)与前述四种方法相比,具有最好的准确率、检测率和最低的误报率。