论文部分内容阅读
入侵检测是一种主动型的信息安全技术,可以从大量网络数据中检测出其中的恶意行为。由于网络数据的海量性,高效的入侵检测算法和系统通常可以分为两部分,一部分为网络数据的预处理,实现对数据的清洗,保存数据中的有效信息的同时减小数据规模;一部分是数据分类算法,对网络数据进行分类,区分正常数据和入侵数据。本文针对预处理和检测两部分进行了相关研究,主要工作有以下三点:(1)本文将非负矩阵分解算法(Non-negativeMatrixFactorization)应用于入侵检测的数据降维过程。非负矩阵分解算法在大规模数据处理和分析中有优秀表现,被广泛应用于图片和文字处理中。由于非负矩阵分解算法得到的分解矩阵元素全部是非负数,这种思路对于智能数据处理和模式识别领域中有重要意义。本文将改进后的非负矩阵分解算法应用于入侵检测的数据降维过程中,得到了较好的降维效果。(2)传统非负矩阵分解算法(Non-negative Matrix Factorization)存在K值选取困难和初始矩阵随机导致的优化时间过长的问题,本文将主成分分析算法(Principal Component Analysis)与NMF算法相结合,利用PCA算法的降维矩阵作为NMF算法的初始化矩阵,并进行迭代优化。该改进的NMF算法不仅可以通过设定所需的PCA算法的信息量阈值,从而合理的选择NMF算法的K值,同时合理的初始化矩阵降低了迭代时间,提高了后续数据分类算法的分类准确率;(3)在仅有少量标记样本的情况下,如何更好的训练分类器是入侵检测领域的一个重要问题。本文通过对传统tri-training模型的改进,引入了新的参数异议率p表示被标记样本的置信度,在学习器训练过程中考虑所引入的噪声数据的影响,增大训练样本的置信度,实现通过较少的迭代次数达到较好的训练结果。仿真实验表明该改进的基于SVM的tri-training模型可以在更少的迭代次数达到较高的入侵检测准确率,且检测率较传统tri-training模型提高1.1%。