Web中文文本分类技术研究与实现

来源 :武汉理工大学 | 被引量 : 3次 | 上传用户:qwerasd1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化的大背景下,Web的飞速发展及互联网的普及给我们的工作和生活带来了极大的便捷,网络成为人们获取信息的重要来源。不过由于异构与开放的Internet网络,大量垃圾信息充斥其中,对待无尽的网络信息,怎样有效的管理,如何快速、准确地发现潜在有用的知识成为当前的研究热点。有效应对繁杂网页内容的一个重要方法就是将其分类,而目前文本仍然是网页的主要呈现形式,因此文本分类是解决该问题的核心,同时它也是有关搜索引擎,信息的检索与过滤的基础技术,广泛的适用性决定了对它研究的现实意义。Web中文文本分类是互联网技术与传统文本分类技术相结合的产物,简单概述,它是利用已知类别Web中文文档学习出一个分类模型,继而确定未知文档类别的技术,整个过程包括预处理Web中文文本、选取特征词集、文本表示、计算词权值、样本分类等步骤。首先本论文在阐明Web中文分类关键技术的基础上,总结了研究的背景及现状,分析了研究的流程思路,做了很多理论和实现上的研究。理论方面,在综合分析总结了已有方法的不足之后,对分类过程中的一些环节进行了改进。针对Web下的特殊使用环境,提出了在特征选择之前,不同位置的文本,分区域、分步骤并赋予不同权重处理的思路;对于卡方统计只顾文档频率而没考虑词频,本类出现少而非本类中普遍存在时极有可能被选为特征词以及自身公式中均匀分布纠正惩罚能力不够等情况,提出了词频补偿因子、类别比重因子、类内分布因子的概念,将它们乘在传统方法的公式后面作为补偿来对原方法加以改进,取得了良好的效果;在分类算法方面,重点研究了KNN算法,在深入分析其原理后总结出了优缺点。针对KNN算法采用内积公式计算文本相似度比较粗糙的情况(文中已举例说明),给出了一种利用相似接近系数进行完善的方法。通过设计相关试验证明,以上改进后的措施在准确率、召回率、F1值等方面都有不同程度的提高。实现方面,本文设计了用于Web中文文本分类试验的小工具软件,包括用于建立样本库的Web网页采集模块,用于处理文本和分类过程的分类模块,用于评估对比最终结果的评估模块。并提供了设计的主要方案和用到的一些关键技术。
其他文献
通过观察不同护理干预措施在出血性脑卒中继发癫痫患者中的应用效果,得出结论:全面化护理在出血性脑卒中继发癫痫患者治疗中的实施效果显著.
目的:对细节优化护理对于初产妇产后母乳喂养、康复及抑郁情绪改善中的应用效果予以探讨.方法:随机选取我院2016年4月至2017年4月间收治的80例初产妇,随机均分为对照组(常规
目的:探讨慢性缺血性心肌病合并肾功能不全的临床护理干预方法 与效果.方法:随机选取在本院接受治疗的慢性缺血性心肌病合并肾功能不全患者46例作为研究对象,根据患者入院治
从蒙医学的角度初步认识亚健康状态及其成因,对亚健康状态进行蒙医护理学探讨.
论文主要基于IEEE 802.16d标准,探讨了WiMAX-OFDM系统中的无线资源调度算法,并针对WiMAX-OFDM系统对同步误差较为敏感的弱点,给出了一套WiMAX-OFDM系统同步方案。 首先,论文利
探讨实施综合护理干预对降低新生儿高血糖指数的效果.对特定数量剖宫产正常足月新生儿,按出生顺序分成两组一组是干预组,另一组参考组,两组新生儿均进行母乳喂养、常规护理,
目的:研究优质护理对于改善老年慢性阻塞性肺疾病临床症状的疗效.方法:选取在2017年4月-2017年10月期间入住我院并进行治疗及护理的老年慢性阻塞性肺疾病的60例患者自由组合
目的:探讨将护理质量持续改进在子宫肌瘤患者中的应用效果.方法:选取2015年8月至2017年5月期间在我院接受治疗的子宫肌瘤患者125例,将该批患者按照接受护理方式的不同分为基
重症脑外伤患者会出现不同程度的昏迷、意识障碍、呼吸困难等情况 [1],尤其是颅脑损伤合并其它脏器伤时,病情变化快,并发症较多,通过数据得知,此疾病导致患者残疾和死亡的机
随着航天科技的发展,高分辨率的星载图像越来越多的应用于国防、科学探测等各个领域。各种视觉科学仪器所采集的图像数据量越来越大,其Giga bps量级的数据量大大超过现有下行信