中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:kxh8l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及和信息技术的飞速发展,人们可获取的信息量成雪崩式增长,而大多数信息是以文本的形式存在的,如何从海量文本信息中快速、准确、全面地找到所需要的信息已经成为目前研究的热点。能够对庞大的文本数据进行处理和使用的文本分类技术,作为信息检索的关键技术之一,已经应用在多个领域。特征选择和特征加权在中文文本分类过程中占据非常重要的地位,特征选择方法目的是降低特征空间维数,通过选取类别区分度较大的词作为特征项,过滤作用小的词,使分类的准确率得到提升;为了区分特征项的分类能力,特征加权方法根据其类别区分度的不同设置不同的权重值。特征加权算法的选择以及特征选择结果的好坏直接影响文本分类效果,因此寻求一种有效的特征选择和特征词权重计算方法就成为文本分类中极为关键的问题。本文主要从特征选择和特征加权两方面对文本分类进行分析和讨论。首先,论文介绍了文本分类的基础工作和理论知识,从文本预处理、模型表示以及分类器等方面进行说明。其次,对文本分类中的特征选择方法进行重点阐述,介绍了几种常用的特征选择方法,分析各方法的优缺点。针对卡方统计方法忽略了低频词缺陷问题及忽略了特征项在类别内部分布情况的不足,引入了特征项频度和类内信息熵两个因子,针对卡方统计方法倾向于选择与类别负相关的特征词的问题,引入修正因子进行改进,提出了一种基于特征项频度和类内信息熵的卡方统计方法ICHI。同时本文还对常用的特征权重计算方法进行了研究和讨论,针对TF-IDF权重计算方法忽略了特征项在类内部分布情况的不足,引入类内信息熵因子对该方法加以改进,针对TF-IDF权重计算方法忽略了特征项在类别之间的分布情况的不足,用卡方统计方法(CHI)来描述特征词在类间的分布信息和其分类能力,对IDF因子加以修正,提出了一种结合卡方统计方法和类内信息熵的TF-IDF权重计算方法。最后,为了验证本文提出的卡方统计的改进算法和TF-IDF改进算法的可行性和有效性,本文以复旦大学中文语料集作为数据集,在中文文本分类平台上进行两组对比实验,用准确率、召回率、F1值等多个评价指标进行评估,实验结果验证了本文改进的卡方统计算法要比传统方法具有更好的降维效果,TF-IDF改进算法在计算特征项权重方面要比传统方法有明显的优化,可以使中文文本分类的精度和效率进一步提高。
其他文献
新产品、新工艺、新技术的不断开发与应用,加速了计量器具的更新换代,为了确保这些新型仪器仪表的正确使用和准确计量,因此跟进对其检修与管理工作的探索与实践。
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权
目前税务清算管理尚未得到应有的重视,造成国家税款大量流失,究其原因有多种。为有效解决企业注销有效税务清算的有关问题,笔者提出了一些建议。
金属材料作为工业生产应用最广泛的材料,其应用范围包括航空航天、汽车制造、机械工业及石油化工等行业,但是金属材料的腐蚀问题始终是其使用过程中的一大难题。由于超疏水表
在文本情感分类中,传统的特征表达通常忽略了语言知识的重要性。提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对
采用1990-2011年各产业FDI与各产业增加值的时间序列数据,通过VAR模型、协整检验、误差修正模型(VEC)等计量工具实证研究我国各产业FDI对各产业经济增长的影响,研究结果显示:
本文分析了公司高管团队异质人力资本的特殊性,根据这些特殊性基于博弈论视角分析高管团队异质人力资本与物质资本的博弈过程,博弈结果表明:(1)随股权的不断分散,现代公众公
对于高职院校而言,教师是推动高等职业学校发展的主力,因此必须建立一支合理规范的"双师型"师资团队。所谓"双师型"教师的职业能力,它包括与学生沟通表达方面的能力、专业知
庄子生活的时代,"游士无宗国"所引致的"生涯地震",大变革的背景引发士人思考个体的生涯发展最佳路径。庄子针对儒家提出了浑沌生涯发展思想,从人生如梦与命运无常两个方面来