论文部分内容阅读
集成学习(Ensemble Learning)是一种机器学习范式,是当前的研究热点之一在多个领域有了很好的应用。但集成学习技术还没有成熟,在研究过程中仍然存在着众多待解决的问题,在应用上也和人们期待的水平相去甚远。本课题对集成学习进行了深入地研究,一方面分析了现有方法的优劣。另一方面,研究了影响集成效果的各个因素,这为进一步改进集成学习做好铺垫。在现有算法的研究基础上,提出了新的集成学习方法:针对某些个体分类器对集成效果起较小的作用或起消极作用的情况,本文提出了“基于信息增益的分类器选择”方法,这种方法首先需要构造分类器空间,然后计算个体分类器信息增益,根据信息增益删除一个或若干个个体分类器,最后再将剩余的分类器集成,实验结果表明经过信息增益选择分类器后的集成要优于不进行处理的情况;针对数据集中不是所有的特征都对集成起积极作用的情况,本文提出了“基于改进遗传算法的特征选择”方法,该方法将机器学习应用到遗传算法中,达到有效选择特征的目的,然后在处理过的数据集上使用集成学习,实验证明经过此方法处理的数据集不但在集成效果有了很大提高,而且大大缩短训练时间。最后,本文还对集成学习的应用进行了研究,第一,详细分析了入侵检测数据集(KDD CUP99、UCI)。第二,对KDD CUP 99做了适当的处理,然后成功将集成学习方法应用到此数据集上。第三,比较了经典的集成学习方法和本文提出的集成学习方法在入侵检测数据集上的效果。本文通过多次实验和应用实例对提出的新方法进行了验证,结果表明新方法是有效性的、可行性的。