论文部分内容阅读
随着计算机网络的普及和信息技术的不断发展,网络在人们生活中的作用越来越大,网络中的文本信息也不断积累,种类复杂多样,文本分类系统的完善显得尤为重要。需要进行分类的文本往往参差不齐,分布不均衡,并含有噪声。前人使用神经网络集成算法对文本进行分类,但是由于Adaboost算法本身容易在有噪声或样本分布不均时产生过训练,造成过拟合现象,极易影响文本分类系统的性能。本文以Adaboost算法的这一缺陷为出发点,对算法进行改进,降低过拟合现象的发生,同时将改进算法应用到文本分类,提高文本分类的准确性。本文的主要工作分为三部分:文本的预处理;基于样本分布、抑制过拟合的Adaboost算法的改进算法——Ada-S算法;Ada-S算法在文本分类中的应用。本文主要针对神经网络集成算法中的Adaboost算法进行了改进。本文通过对算法中样本权重的调整策略进行的改进,使样本权重的变化幅度不仅仅依据分类器的识别情况,还根据样本的分布情况做出适当地调整,避免Adaboost算法过度关注噪声样本及困难样本,使Adaboost算法的过拟合现象有所下降,尤其是降低了噪声比例较大时过拟合现象的发生,一定程度上提高了Adaboost算法的泛化性能。同时,本文对上述改进算法的调节因子根据各类样本参加训练的情况进行优化,使Adaboost算法能够进一步提高分类的准确性。最后,本文将改进的算法Ada-S应用到文本分类中,通过与原始的Adaboost算法进行比较,改进算法Ada-S的泛化性能和文本分类评价指标均有相应的提高。