论文部分内容阅读
Internet的飞速发展导致网络上的文档信息急剧增长,如何自动处理这些海量信息成为目前重要的研究课题。文本分类是对文档信息进行有序组织的方法,它能够为信息检索提供更高效的搜索策略和让其返回更准确的检索结果。本文研究自动文本分类算法。 本文首先介绍了文本分类的发展概况,对常用的分类算法,比如朴素贝叶斯(Naive Bayes,简称NB)、TFIDF、k近邻(k Nearest Neighbors,简称k-NN)和支持向量机(Support Vector Machine,简称SVM)等进行了介绍和分析,为后续章节的研究提供了理论和实验基础。 平滑技术虽然能够使NB算法避免零概率问题,但该技术本身存在一些不足之处,为此本文提出了两种新的策略:NB_TF和NB_TS,可以在不采用平滑技术的情况下消除NB算法中的零概率问题。分析和实验表明,与Laplace和SGT平滑算法进行比较,新策略在有效性、适应性等方面具有较好的性能。 本文对调整训练文本权值能否提高单分类器性能的问题进行了研究,采用了较简单的权值调整策略,提出了两种新算法:KTrainl和KTrain2。分析和实验表明,新算法能够对分类器性能起到一定的提升作用。 本文在研究TFIDF和k-NN算法的基础上,融入增大错分训练文本权值可以改进分类器性能的思想,提出了一种改进的TFIDF算法——S-TFIDF,该算法采用k-NN算法思想改进TFIDF算法性能。实验验证了S-TFIDF算法在分类性能上优于TFIDF和k-NN算法。同时,S-TFIDF算法保持了TFIDF算法的高运行效率,适合大规模的文本分类任务。