论文部分内容阅读
文本是互联网上的主要信息载体,文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。 文本分类的关键技术主要包括向量空间模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。在特征赋权方面,本文在向量空间模型基础上,分析了TF-IDF权重算法的不足,提出了结合TF-IDF与类间分布信息的改进权重算法。实验结果表明改进的权重算法对分类精度有所提高。本文对几种常用的特征选取算法进行了研究比较,分析了互信息算法进行特征选取精度不高的可能原因,改进了互信息算法。实验结果表明改进的互信息算法提高了分类精度。本文考察了几种常用的分类算法,并且通过实验测试了它们的性能。结合分类算法Rocchio的特点和基于层次结构的分类理论,本文在实验中实现了基于Rocchio的层次分类方法。