基于机器学习的文本分类算法改进与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:qishanf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着时代的迅速发展和互联网技术的广泛应用,网络上流传的文字数量正在迅速增加,不论是处于存储状态还是处于流动状态,这些文本信息对于人们的生活或多或少有着一定作用。在如此大量的文本信息中,如何能够快速准确的找到人们需要的文本是一个很重要且有实际意义的课题。作为管理大量文本数据的重要技术,文本分类在信息检索和数据挖掘等方面有着极高的应用价值和需求,在信息化时代有着极其重要的研究意义。本文旨在提高KNN分类器的分类性能。论文首先阐述了文本分类的大概流程,然后在流程中选取了较为关键的特征提取、特征加权、分类算法作为主要研究目标,在深入学习并研究了相应过程后对原算法提出了改进并且进行了实验加以验证。(1)分析特征提取步骤中常用的互信息方法。传统的互信息算法忽略了负相关特征的作用,也忽略了其对分类精度的影响。针对该缺点,提出了一种改进算法,主要是为了增强负相关特征项在分类中的有益影响。使得在某些特定领域中经常出现的特征词,能够被特征提取算法所识别出来。(2)结合实数编码遗传算法对特征加权进行了改进。主要针对TF-IDF算法不考虑类之间或类内部的特征分布,不考虑特征未完全分类的情况,提出了基于实数编码遗传算法(GA)的特征加权方法,用实数编码遗传算法计算特征权重。(3)在分类算法部分,由于本文的主要目标是提升KNN分类器的性能,所以对KNN算法做了详细的介绍,为了考虑语义关联的非对称性,提出了一种基于关联规则的KNN改进算法。Apriori算法主要用于先提取类别的频繁项集和关联文本,从而确定合适的邻近数k。改进后的算法能更有依据的确定k值的大小。最后通过实验,验证了以上三部分的改进都能提高分类的准确性,提高了KNN分类器的性能,证明了本文提出的改进算法的有效性。
其他文献
针对硅微谐振加速度计在进行结构设计时,如何根据模态特性选取工作模态这一问题,比较分析了加速度计工作在两种不同振动模态下的性能参数。首先采用刚度法分析了谐振器的振动
法律人在获取一项正当裁判的过程中,必然要运用到法律解释。而法律解释的方法就是法律人从法的渊源找寻法律规范的必要工具。法律人为了获得一项令人满意的解释结果,在适用法
<正>班主任的工作琐碎、杂乱,事无巨细,身体力行使很多班主任疲于奔命,忽略了很多教育细节。细节决定成败,亲力亲为耗费了班主任太多精力,忽略了教育本身的"无为而治"。高度
我国是一个农业大国,农产品数量大,品种多使农产品物流形成了潜在的巨大物流市场需求。推进农产品物流建设对我国农业现代化发展有着重要意义。本文针对我国农产品物流发展落
对于两个多项式f(x),g(x)定义了推广的多项式判别序列D(f,g),并给出两个多项式的根的相对分布的显式判定
游戏工业捕获留守儿童的秘密在哪里?留守儿童沉迷游戏的现象为何难以根除?自2016年开始,中国农业大学人文与发展学院“中国农村留守人口研究”团队集中关注农村留守儿童与网络游
学位
《红楼梦》为探讨我国传统宗族社会中女性与姻亲的作用提供了有价值的素材。在中国传统社会中,姻亲的活动使得单姓宗族的各种势力得到扩充,活动范围得以扩大,故在传统的宗族
我国是花生(Arachis hypogaea)生产大国,花生秧、壳资源丰富,对花生秧、壳的综合利用不仅可以有效提高该产业的经济效益,而且有益于畜牧业的可持续发展。本研究综述了花生秧
职教学业水平测试是标准参照考试,本质属性是"合格性"。测试数据一般用于教育行政部门的教育决策、不同地区教学质量的比较研究、学校教学存在的问题诊断。在职教数学学业水
林农林业经营,离不开资金的投入。林农融资行为对于林业经营极为重要。基于辽宁省西部199份林农调查数据,运用二分类logistic模型和多项式Logistic模型分析了林农融资需求和