论文部分内容阅读
随着信息技术的迅速发展,大量文本信息不断涌入我们的视野,在这样一个信息化时代里,如何快速有效地在这浩瀚的信息海洋里找到需要的东西是亟待解决的问题。目前的检索效果不是很理想,主要原因在于用户不能很好地表达自己的需求,而系统给出过多的查询结果,给用户检索带来诸多不便。如果能让用户在结果集中去掉或保留和某一文本相似的文本集合,就可以大大减少用户阅读量。而文本的自动分类研究以及文本相似度的判别研究工作在这里就起到了重要的作用。目前文本自动分类所采用的主要方法是向量空间模型。该方法的思想是把文本分割成由词或字组成的特征项,进而把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的夹角来判定文本之间的相似程度。目前关于自动分类的研究已经取得了很大的进展,并提出了一些有效的算法,如Bayes 算法、支撑向量机SVM(support vectormachine)、Boosting、KNN(k-nearest neighbors)算法等等,其中适用最广泛的是KNN算法。基于向量空间模型的算法作为一种简单、有效的算法,在文档分类中引起广泛关注,并且取得了很好的成果。但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合,而造成算法复杂度太高的原因之一,就是向量空间模型中向量空间的维数过多。因此,如果能够有效地降低向量空间的维数,则算法复杂度将大大降低,准确度也将大大提高。
论文中提出了一种提高算法分类精度的方法:对一个标准词库按照语义相似程度进行统一分类,把4万多个词条聚集成300个左右的类。做文本分类计算时,把待分类文本在这个分类词库上进行向量表示,这样相同类别的词条就可以用同一个向量表示,而不像之前每一个词条都要用一个向量来表示,这样就大大地减少了向量的维数,从而大大简化算法的复杂度,有效的提高了算法的准确度。
本文主要包括2部分:第一部分对标准词库进行统一分类研究,第二部分通过建立模型,对KNN算法在标准词库下的应用进行研究。