基于改进的SVM-KNN算法的中文网页层次式分类

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xianglikai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网进入Web2.0时代,Blog、SNS等新兴网络媒体日益流行起来,Web信息量出现爆炸性增长。面对Web上的海量数据,人们要想有效地获取自己所需要的信息已变得越来越困难。如何对Web中各种资源进行有效地组织和管理,帮助用户快速有效地查找到真正所需要的信息就成为一个非常有意义的课题。本文针对中文网页的层次式分类进行研究。首先本文对使用的相关技术进行了概述,其中包括SVM算法和层次式文本分类的基本理论。然后本文对SVM-KNN算法进行分析,针对其在样本分布不平衡时存在的不足之处,本文对SVM-KNN算法进行了一点改进。在此基础上,本文提出了一个层次式文本分类模型,然后将此模型应用到中文网页分类这一实际问题中,设计并实现了一个原型系统。最后,我们利用CCT2002语料库对本文提出的层次式分类模型、层次式SVM算法及平面式SVM算法这三种文本分类方法进行了对比实验。实验结果表明本文提出的基于改进SVM-KNN算法的文本分类方法在不仅保持了一定的分类精确度,而且有效地减少了文本分类所耗费的时间。因此我们认为这种方法是比较适合于应用到中文网页分类这一实际问题中去的。
其他文献
在钢铁企业特定的运行过程中,电力设备可能存在一定潜在的危险,高压电气试验可以有效降低风险的存在,因此掌握高压电 气试验方法和对策尤为重要。但是由于试验设备、试验时间
镉是一种毒性极强的重金属,为最易在体内蓄积的毒性物质之一。镉暴露会导致肝脏、肾脏、胃肠道、生殖器官、骨骼以及心血管等多种器官的病变。其中,肠道吸收是镉进入机体最主
随着经济、科学、社会的不断发展,我国综合国力不断增强,目前也在各个领域实行转型改革以适应现在的国情,获取活力和追求更好发展。在制造方面,我国实现制造强国的重要战略举
通过对覆盖贵州省9个地区的部分特殊人群近2万人的犯罪隐语的调查,分析和归纳出贵州犯罪隐语的特点、类型和其特殊的功能效用。对于侦查破案具有重要的作用。 Through the i
目的 探讨高频重复经颅磁刺激(rTMS)联合利培酮治疗精神分裂症的应用价值。方法 选取2015年6月~2017年10月收治的82例精神分裂症患者,按照随机数字表法分为观察组与对照组各4
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
高校教师的人格魅力对正处于成长阶段的青年大学生来说,具有潜移默化的榜样作用和教育作用。在市场经济的影响下,一方面是高校教师的成就动机不再局限于课堂教学,另一方面是
目的观察不同形状的中耳硅胶通气管治疗分泌性中耳炎的疗效与安全性。方法选取本院收治的100例(127耳)中耳炎患者作为研究对象,随机分为A组50例(64耳,采取哑铃型中耳硅胶通气
目的探讨标准大骨瓣减压联合脑-硬脑膜-肌肉血管重建术对重型颅脑损伤脑组织血流动力学及颅内压的影响。方法选取2017年3月至2018年8月云南省昆明市中医医院收治的20例重型颅
针对数码航空摄影测量的特点,利用Java语言的Java3D开发工具包生成模拟的可视化航飞路线模型.利用Java3D的事件监听处理功能实现对航线模型的缩放、平移。单击航线模型上的曝光点可以实现对相应数字航摄影像的浏览,可以任意浏览整个测区的每一张影像.模型为整个数码航摄影像的处理过程提供便捷、高效的影像查询和浏览。