论文部分内容阅读
从20世纪90年代以来,伴随互联网的飞速发展,出现了大量的电子文档。如何对这些无结构的自然语言文本进行有效的管理和使用成为一个重要的研究问题。一些自然语言的处理技术例如信息检索、数据挖掘、文本分类等快速地发展起来。
文本分类是信息处理的一个重要研究领域。与其他的分类任务相比,文本分类本身一个最重要的特点是,文本分类通常用词作为分类的特征。词的数目非常大,几千,几万,甚至几十万。分类特征非常多,普通的分类器难以很好的完成分类任务。如何有效的减少分类的特征,而同时要保证分类的性能就成为重要的研究内容。特征降维的方法通常分为特征选取和特征抽取两类。在本文中重点研究了采用因子分析技术进行特征抽取的方法。
潜在语义索引是一种最常用的特征抽取技术,通过对项-文本矩阵的分解,利用词之间的共现信息来抽取特征,文本表示从原来高维词空间的文本向量线性映射到潜在语义空间的低维向量。潜在语义索引是一种非常好的特征降维的方法,它可以利用很少的维数保存文本绝大部分的分类信息,而且能够去除数据集中的噪声来提高分类的效果。文中对潜在语义索引对于特征降维的能力进行了研究,与常用特征选取方法如信息增益,文档频度,互信息等进行了比较分析。实验结果表明,潜在语义索引是一种很好的降维技术,可以用很少的特征而得到非常好的分类效果。
因为潜在语义索引采用奇异值分解实现,所有的运算都是线性转换,所以得到的新特征是由原始特征(词)信息的线性组合得到的。而有些对分类有用的信息是非线性的,潜在语义索引方法无法对这些信息很好的进行表示。
核主成分分析与潜在语义索引很相似,也是一种因子分析技术。核主成分分析通过引入核方法,把文本从词空间映射到非常高维的特征空间后,再进行主成分分析,抽取非线性特征。核主成分分析能成功的避开潜在语义索引的线性限制,从而能够抽取到更适合分类的特征。核主成分分析与kNN分类器组合模型取得很好的分类性能。本文选用多项式核函数,并对多项式核函数的参数对分类性能影响进行初步探讨。在中文和英文数据集上的实验结果表明,核主成分分析用来作特征抽取能够达到或者超过潜在语义索引方法的分类效果。