论文部分内容阅读
文本分类在信息检索、文本过滤、文档组织等多个领域有着广泛的应用。在文本分类中,通常用特征词向量来表示文本数据,由于特征词较多导致文本数据的维数过高,经常达数千甚至数万。利用现有的分类方法处理这些高维的文本数据时会产生维数灾难的问题,不仅分类效率低,而且精度也不高。为此,将流形学习应用于文本分类中,利用流形学习算法对文本数据降维,获取低维数据后将其用于分类。本文主要工作如下:首先,提出了一种基于流形学习的文本分类方法。将流形学习应用于文本分类中,通过流形学习对待分类的文本数据做降维处理,获得的低维数据用于文本分类,低维数据的维数比原始文本数据要低得多,从而极大地提高了分类的效率。其次,在流形学习算法中,当在高维空间中求解近邻时,采用的欧氏距离存在失效性,不能真正地表示样本之间的相似程度,造成经流形学习算法降维后的文本数据分类精度降低。针对这一问题,提出了一种新的相似性度量措施——特征词相交距离。特征词相交距离表示的是样本中特征词相同的部分,也就是样本与样本间互相交叉的程度,它可以较好地表示样本间的相似程度。实验结果表明,特征词相交距离替换欧氏距离后的流形学习算法对文本数据降维后,所得到的低维数据用于分类时分类精度得到了极大地提高。最后,将夹角余弦距离和特征词相交距离相结合后形成新的距离代替欧氏距离。在实验中,将夹角余弦距离、特征词相交距离以及二者结合分别代替流形学习算法中的欧氏距离,利用距离替换后的流形学习算法对文本数据进行降维,并将降维后的低维数据用于分类。在实验中,利用的流形学习算法包括ISOMAP、LLE和LE三种算法,分类算法包括SVM、NB和KNN三种算法。实验结果表明,利用基于距离结合的流形学习方法对文本数据降维后再进行分类取得的分类效果最佳,分类精度和分类效率都得到了较大的提高。