文本分类中词语权重计算方法的改进及应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:mike621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展和信息技术的进步,带来了信息量的猛增,人们很难在浩瀚的信息中找到真正需要的信息,虽然各种搜索引擎的出现在一定程度上解决了这一问题,但是各种搜索引擎都是简单的看是否包含关键字,这样搜索结果十分庞大,并且不利于用户找到需要的信息。文本自动分类是一个有效的办法,已经成为一项具有使用价值的关键技术。近年来,多种统计理论和机器学习方法被用来进行文本的自动分类,掀起了文本自动分类的研究和应用的热潮。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。寻求一种有效的词语权重的计算方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中的首要问题。因此,本文在研究中文文本分类的过程中,重点放到了词语权重的计算方法的改进上,在此过程中做了如下的工作:①分析了传统词语权重计算方法的三个缺点:第一,没有考虑特征项在类间的分布信息。第二,没有考虑特征项在类内的分布信息。第三,没有考虑特征项不完全分类的情况。本文从词语的频度,集中度和离散度三个角度进行考虑,提出了本文的词语权重计算方法:TF-IDF-DI-WFDB。②用特征词在类间和类内部的离散度来描述特征词在类间和类内部分布的情况,形成了TF-IDF-DI的词语权重计算方法;同时进一步,针对传统词语权重计算方法没有考虑特征项不完全分类的情况,引入了词频差异WFDB来进行修正,从而形成了本文的词语权重计算方法:TF-IDF-DI-WFDB,弥补了上述缺点。③用实验证明,本文提出的改进的词语权重的计算方法TF-IDF-DI-WFDB,用于KNN分类结果,好于传统词语权重计算方法用于KNN的分类结果。实验结果表明,无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,改进的词语权重计算方法的分类效果都要好于用传统的词语权重计算方法的分类效果。④在改进的词语权重的计算方法TF-IDF-DI-WFDB的基础上,本文进一步用遗传算法的寻优能力来训练分类器。实验表明,能够达到比传统KNN分类算法略好的分类效果,进一步表明:本文对词语权重的计算方法的改进,是正确可行的。
其他文献
随着因特网的发展和后PC时代的到来,嵌入式系统己经成为计算机技术领域的一个新的研究热点。嵌入式系统是一个复杂的软硬件集成系统,如何来学习嵌入式系统是一个重要的课题。由
为了提高土木工程的质量、保护量测技术人员的安全、减少工程费用、提供同步测量的可能性,研发了一套土木工程质量远程监测系统。系统主要由前端数据采集子系统和后台数据处
虚拟人足球比赛仿真系统是虚拟人技术和人工智能的集中体现,同时还涉及计算机图形学、虚拟现实、运动学与动力学、多功能感知、认知心理学等多个学科,是一个非常典型的复杂系统
目前,数据已作为企业重要、可共享的资产,成为信息化建设的重点和基石。然而,大多数部门都独立地进行本部门或本企业的信息系统的设计,而不与其它企业或部门进行交流,形成了
在模式识别领域,人脸识别已经成为研究热点,不仅具有很高的研究价值,还有广阔的应用前景。本文的研究工作包括人脸特征定位和人脸识别两部分。人脸特征定位在人脸识别应用中起着
20世纪90年代以来,生命科学研究取得了突破性的进展,随着人类基因组计划的开展与现代生物技术的发展,人类积累的大量的生物信息数据为揭开生命奥秘提供了数据基础。而怎样从
随着计算机技术的发展,软件和软件系统在生产生活中的应用越来越广泛。除了微型计算机中的应用软件外,在工业制造、交通运输乃至军事领域中也拥有了规模庞大的软件系统。在大型
学位
挖掘关联规则及规则的更新是数据挖掘领域的一个重要研究热点之一。目前已经提出了许多用于高效地发现大规模数据库中关联规则的算法,这些算法都有各自的特点。基于不同的关联
可重构计算系统利用可编程逻辑器件可重配置的特点,在通用微处理器和专用集成电路之间提供一个结合功能灵活性和高运算速度的平台,被认为是能满足未来嵌入式应用市场需求的一