论文部分内容阅读
随着互联网的迅速普及和信息技术的飞速发展,人们可获取的信息量成雪崩式增长,而大多数信息是以文本的形式存在的,如何从海量文本信息中快速、准确、全面地找到所需要的信息已经成为目前研究的热点。能够对庞大的文本数据进行处理和使用的文本分类技术,作为信息检索的关键技术之一,已经应用在多个领域。特征选择和特征加权在中文文本分类过程中占据非常重要的地位,特征选择方法目的是降低特征空间维数,通过选取类别区分度较大的词作为特征项,过滤作用小的词,使分类的准确率得到提升;为了区分特征项的分类能力,特征加权方法根据其类别区分度的不同设置不同的权重值。特征加权算法的选择以及特征选择结果的好坏直接影响文本分类效果,因此寻求一种有效的特征选择和特征词权重计算方法就成为文本分类中极为关键的问题。本文主要从特征选择和特征加权两方面对文本分类进行分析和讨论。首先,论文介绍了文本分类的基础工作和理论知识,从文本预处理、模型表示以及分类器等方面进行说明。其次,对文本分类中的特征选择方法进行重点阐述,介绍了几种常用的特征选择方法,分析各方法的优缺点。针对卡方统计方法忽略了低频词缺陷问题及忽略了特征项在类别内部分布情况的不足,引入了特征项频度和类内信息熵两个因子,针对卡方统计方法倾向于选择与类别负相关的特征词的问题,引入修正因子进行改进,提出了一种基于特征项频度和类内信息熵的卡方统计方法ICHI。同时本文还对常用的特征权重计算方法进行了研究和讨论,针对TF-IDF权重计算方法忽略了特征项在类内部分布情况的不足,引入类内信息熵因子对该方法加以改进,针对TF-IDF权重计算方法忽略了特征项在类别之间的分布情况的不足,用卡方统计方法(CHI)来描述特征词在类间的分布信息和其分类能力,对IDF因子加以修正,提出了一种结合卡方统计方法和类内信息熵的TF-IDF权重计算方法。最后,为了验证本文提出的卡方统计的改进算法和TF-IDF改进算法的可行性和有效性,本文以复旦大学中文语料集作为数据集,在中文文本分类平台上进行两组对比实验,用准确率、召回率、F1值等多个评价指标进行评估,实验结果验证了本文改进的卡方统计算法要比传统方法具有更好的降维效果,TF-IDF改进算法在计算特征项权重方面要比传统方法有明显的优化,可以使中文文本分类的精度和效率进一步提高。