论文部分内容阅读
当前机器学习面临的主要问题之一,是在标记训练数据十分有限且不易获得的情况下,如何有效的利用海量的未标记数据。半监督学习是近期出现的一种学习策略,它能够综合应用实际问题中的海量未标记数据与少量的已标记数据。现有研究表明,半监督学习具有较高的实用价值,目前已经成为机器学习研究领域一个新的研究热点。入侵检测技术是动态安全系统的最核心技术之一,它在保障信息网络安全、尽早发现入侵攻击迹象、分析入侵攻击的技术手段方面发挥着重要的作用。支持向量机(Support Vector Machine, SVM)是建立在统计学习理论基础上的一种全新的通用机器学习算法,具有良好的泛化性能。目前已经成为模式识别、数据挖掘等相关领域的一种标准的分类算法。本文在深入研究半监督学习和传统的机器学习理论及目前入侵检测系统所面临问题的基础上,选择SVM方法作为基础分类算法,提出了一种新的处理海量未标记数据的半监督算法。本文主要获得以下研究成果:(1)提出了一种新的半监督SVM算法,利用Tri-training改进SVM,在对SVM初始训练中只要求有少量的标记数据(而不是在传统的SVM中要求全部标记训练数据),并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用能够有效的提高SVM算法的分类精度,由于通过增大分类器间的差异性能够获得更好的分类效果,本文利用不同核函数实现了不同SVM分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验都表明,该算法具有较好的决策效果。(2)参考通用入侵检测系统结构框架(CIDF),设计了一个基于半监督SVM的入侵检测系统模型,并实现了其中最主要的分类器训练和决策模块。(3)提出了一种半监督1-类SVM(One-Class SVM)算法。将上述基于半监督的1-类SVM应用到入侵检测问题,并针对入侵数据的特点,改进传统1-类SVM并将其应用到本文构造的检测模型中。在KDD99数据集上测试所提出的半监督算法,实验结果表明所提出的半监督SVM算法具有较强的检测能力。