论文部分内容阅读
统计学习理论作为一种专门的小样本学习理论,在解决小样本、非线性及高维模式识别等问题中表现出了许多特有的优势。同时,在其理论基础上发展出了很多实际的学习方法。支持向量机(SVM)就是最具代表性的一个,它专门针对有限样本情况,得到现有信息下的最优解,很大程度上解决了模型选择、过学习、非线性、维数灾难等问题。核函数方法正是在支持向量机的研究中提出并逐步得到发展的一种构造非线性变换的方法。由于核函数的好坏直接影响着支持向量机的性能,因此有关核函数的研究也就成为支持向量机研究中需要解决的核心问题之一。本文的研究工作主要包括以下几个方面:(1)回顾了统计学习理论研究的基本问题及主要内容,介绍了支持向量机的发展和国内外研究现状,对目前存在的问题进行了总结。(2)结合大量的实验,揭示出文本的各种特征对最终分类性能的影响程度,并分析比较了不同的核函数在文本分类中的分类性能,以及各种核函数参数选择和文本特征的联系。为构造适合文本分类的新的核函数、文本分类中的核参数的选择和改进现有的核函数提供了很好的指导。(3)在分析现有参数调整方法的基础之上,结合文本特征,提出了一种改进的参数调整算法,并主要应用于径向基核和组合核的参数调整。实验表明,该方法能够有效地调整支持向量机的参数,提高支持向量机的泛化性能。(4)研究了应用基于样本分布的核函数参数优化方法解决文本分类器径向基核函数的参数优化问题,提出了一种简化算法,依据该算法在Reuters-21578上实现了文本分类器的径向基的参数优化选择。试验结果表明,基于数据分布的径向基核函数参数优化方法可以提高分类器的分类能力,有较高的查全率和查准率,并且具有算法简单、优化效率高等优点。