基于KNN的文本分类特征选择与分类算法的研究与改进

被引量 : 0次 | 上传用户:veiri32
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展和日益普及,文本信息呈现指数级增长。文本分类作为管理大量信息的重要技术,能有效地解决信息混杂的难题,同时能够让用户更准确地检索信息,在信息过滤与检索、邮件分类和话题跟踪等方面有很高的应用价值,是数据挖掘领域的热点技术。本文以提高KNN分类器性能为主要目标,简要阐述文本分类定义、文本预处理、特征选择、特征加权、分类方法和分类性能评估等,并且针对特征选择、特征加权、分类方法进行了深入研究并加以改进。(1)提出了基于蚁群优化算法的特征选择。通过设计适应度函数、转移规则和信息素更新等,可以有效排除关联特征和冗余特征,降低计算的空间与时间,提高计算精度,从而提高分类性能。(2)结合TF-RFIDF对有监督特征加权进行改进。在有监督特征加权方法TF-RF的基础上,将相关性频率(RF)和逆文档频率(IDF)结合,提出TF-RFIDF特征加权法,更好地利用了样本分布和类别先验信息,从而提高文本分类的性能。(3)结合关联规则对KNN分类算法进行改进。该方法利用Apriori算法针对不同类别的训练样本提取每个类别的频繁特征集及其关联的文本,为未知类别的文本确定适当的近邻数k,根据近邻的类别确定未知文本的类别。改进后的方法能够较好地确定k值,并且能降低时间复杂度。实验表明,三个针对文本分类的算法改进都能提高分类正确率,表明了算法的有效性。
其他文献
<正>尽管有着很多这样或那样的不足,但社区医院依旧是医疗信息化进程的重要组成部分。在新医改政策的号召下,信息技术作为其"四梁八柱"之中的一柱,支撑作用早已被业界普遍认
以成年野生白腹锦鸡为研究对象,对其21项血液生化指标进行了测定并按性别分组统计进行差异显著性检验,结果表明,白腹锦鸡血液生化指标在性别之间有差异,但差异均不显著(P>0.0
研究甩挂运输的车辆调度问题对于提高运输效率、节约运输成本具有重要意义。本文在总结归纳甩挂运输组织模式的基础上,对网络型甩挂运输车辆调度问题进行研究。网络型甩挂运
随着经济建设的发展,特别是沿海地区经济发展的需要及人口的不断增多,土地资源匮乏情况日益严重,大量的工程建设都需要在滨海平原、河口三角洲等处进行。这些地区往往都有大
目的探讨医养结合模式下延续护理在老年前列腺增生患者中的应用效果。方法选取2016年7月至2017年6月住院的200名老年前列腺增生患者为研究对象,分为对照组(n=100)和干预组(n=
“这一袋能产60g干木耳,原料是杨树木屑、秸秆和麸皮,去掉成本,一袋利润1.5元钱,这一潮木耳40万袋利润可达50万元。”山东平邑县康合食用菌种植专业合作社技术员汪运河介绍说(上图)
对粤方言师范生进行的舌面前音声母正音训练是普通话语音教学的难题。实践过程中,学生需掌握普通话和粤方言相关声母系统的演变对应规律,以及灵活转换二者的方法。在口语训练中
肺炎支原体(MP)是引起社区获得性肺炎(CAP)的重要病原体之一,可引起肺炎支原体肺炎(MPP),儿童及成人均易感这一特殊病原体,并且近年来MPP发病人数呈增高之势。MP不仅可以引起
图像拼接就是将相互间有重叠部分的图像序列拼接融合成一张宽场景无缝高分辨率图像的技术,当前正被广泛地应用于计算机图像处理、医学图像研究和虚拟现实等领域。基于特征的图
上市公司高管薪酬近年来受到资本市场上各类投资者、监管部门的密切关注。本文利用Tobit模型对我国上证A股上市公司2009—2012年分红状况进行实证研究,结果发现:上市公司高管