基于SVM-KNN的文本分类系统的设计与实现

被引量 : 10次 | 上传用户:castle0611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的飞速发展,人们可以从网络上获取越来越多诸如文本、图片、视频等各种形式的信息,而其中半结构化或无结构化的文本信息占据了很大一部分。如何利用文本分类技术对这些文本信息进行分门别类是非常重要的。文本分类技术在一定程度上解决了信息杂乱的问题,而且它已成为搜索引擎、垃圾邮件过滤等领域的基础。所以,对文本分类的研究有着重要的意义。本文首先介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。其次通过对权重计算算法TFIDF的分析研究,针对传统TFIDF算法忽略特征项的在整个样本集上各个类之间的分布情况这一不足,在传统算法中增加了表示特征项在各个类间的分布情况的不均衡变量以及表示类内各个文本间分布情况的参数,使改进后的权重计算方法更能够体现出特征项的类别贡献率。对信息增益特征选择方法进行了分析,针对信息增益方法在样本集不均匀时,性能大幅下降的缺点,引入了体现特征项类别表征能力的分散度和集中度两个变量,使信息增益方法进一步提升性能。对KNN和SVM分类方法进行了分析,在此基础上,针对SVM方法在最优分界面附近分类准确度降低的缺点和KNN分类速度慢的缺点,提出了SVM-KNN分类方法,提高了分类精度和速度。并针对该算法在样本分布不平衡时存在的不足之处,加入了惩罚机制,进行了改进。在理论研究的基础上,构建了一个包括预处理模块、权重计算和特征选择模块、分类模块以及性能评测模块四个功能模块的中文文本分类系统,用C++语言实现。最后利用实现的中文文本分类系统作为测试平台,利用Sogou实验室语料库语料为样本集,通过实验验证了对权重计算和特征选择算法以及SVM-KNN分类算法改进的有效性和可行性。
其他文献
当今世界,关联企业在经济社会中具有重要的法律地位,有一定影响的企业多以关联企业的形式出现,而控制公司和从属公司是关联企业最主要的表现形式。随着关联企业的不断发展和壮大
背景:国内外对静磁场加载许旺细胞的研究较少,对其产生的生物学效应尚不清楚。目的:探索静磁场对许旺细胞分泌神经生长因子水平的影响。方法:将传代良好的许旺细胞随机分为3组,
基于重庆市2000年、2005年、2010年的3期遥感解译的土地利用矢量数据,通过分析区域生态系统服务价值理论和方法,参考并修正国外学者Costanza和国内谢高地的生态系统服务价值
目的探讨纵膈少见恶性肿瘤的CT及PET/CT表现,提高术前诊断率。方法回顾性分析经病理证实的纵膈少见恶性肿瘤28例,28例均行CT平扫及增强扫描,其中5例一周内行18-FDG-PET/CT检
期刊
码分多址(Code Division Multiple Access, CDMA)系统是在扩频通信系统上发展起来的一种无线通信系统,利用相互正交的不同编码分配给不同用户来调制信号,实现多用户同时使用
随着时代的发展,网络购物这种新兴购物方式已经引起了众多商家和研究者的关注。但随着电子商务的蓬勃发展和网民消费观念的提升,网络购物已不再只是一种简单的基于互联网的购
学术是大学的本质,教师作为学术的主体,是大学重要的组成部分。纵观西方各著名高校,无一不是教师在其中发挥了重要作用。建国后,我国教师在大学中逐渐参与大学内部事务,发挥
<正>2015年2月,第四批干部学习培训教材(以下简称"四干"),由人民出版社和党建读物出版社联合出版发行。习近平同志为教材撰写《序言》,深刻指出要以学益智、以学修身、以学增