论文部分内容阅读
随着计算机技术与网络技术的不断发展与大规模普及,人们可以获得的信息越来越多,这些信息大部分是以文本的形式存在的。如何从这些海量繁杂的文本数据中获得用户需要的有用的信息逐渐成为了人们关注的重点。文本自动分类作为处理和组织大量文本数据的关键技术,满足了人们对于内容搜索的查准、查全等方面的要求,逐渐成为了人们获取知识信息的有效手段。文本分类技术最大的难点和特点之一就是特征向量空间的高维性。特征选择作为特征向量空间降维常用的方法,由于其计算复杂度低而得到了广泛的应用。特征选择方法的好坏会直接影响文本分类的效果。许多研究表明,互信息方法是一种比较好的特征选择度量方法。互信息方法可以表示任意两个随机变量之间的统计相关性,并且具有空间转换的不变性。在文本分类中,互信息特征选择方法仍然存在以下问题:(1)互信息方法只考虑了词条在文本集合中出现的文档频率,而没有考虑词条在文本集合的各个类别中的每个文本里发生的频度问题。(2)互信息方法考虑的是词条与类别之间的相关性,而没有考虑文本词条之间的关联性。(3)由互信息方法的特征评价公式可以看出,文本集合的各个类别中的文本数量对于词条互信息值的计算也有一定的影响。部分研究学者针对互信息方法存在的问题进行了研究并提出了改进方法。谭金波等针对互信息方法没有考虑词条在文本中发生的频度问题,从局部选词的角度进行特征选择,给互信息加上了表征词条出现概率的函数,提升高频词的权重。秦进等针对文本集合的各个类别中的文本数量对词条互信息值的影响,引入了类别文本量占整个文本集的比例来进行修正,排除了当每个类别中的文本量不相等时对词条互信息值的影响。针对互信息方法存在的不足,本文通过引入类内特征频度和类内分散度两个指标,同时限定词条在文本中出现的最小词频,引入MRMR模型中的最小特征冗余度量方法,提出了一种基于文本词频的互信息特征选择度量方法。本文的另外一个工作就是,设计并实现了一个中文文本分类系统,用于文本预处理、特征选择和文本分类。也就是说该系统分为文本预处理、特征选择和文本分类三个模块,每个模块之间是相互独立并且具有统一接口的,模块之间的调用十分方便。为了验证本文所提出的基于文本词频的互信息特征选择方法的可行性与有效性,本文在中文文本分类系统上进行了对比实验。对比实验的结果表明:通过本文方法进行特征选择,得到的文本分类结果,无论从总体的查全率、查准率、Fl值还是从各个类别的查全率、查准率、F1值来看,都比使用传统的互信息特征选择方法和已有的一些改进的互信息特征选择方法进行特征选择得到的文本分类的效果有所提高,从而证明了本文所提出的互信息特征选择方法的可行性与有效性。