Web中文文本分类技术研究与实现

论文部分内容阅读

在信息化的大背景下，Web的飞速发展及互联网的普及给我们的工作和生活带来了极大的便捷，网络成为人们获取信息的重要来源。不过由于异构与开放的Internet网络，大量垃圾信息充斥其中，对待无尽的网络信息，怎样有效的管理，如何快速、准确地发现潜在有用的知识成为当前的研究热点。有效应对繁杂网页内容的一个重要方法就是将其分类，而目前文本仍然是网页的主要呈现形式，因此文本分类是解决该问题的核心，同时它也是有关搜索引擎，信息的检索与过滤的基础技术，广泛的适用性决定了对它研究的现实意义。Web中文文本分类是互联网技术与传统文本分类技术相结合的产物，简单概述，它是利用已知类别Web中文文档学习出一个分类模型，继而确定未知文档类别的技术，整个过程包括预处理Web中文文本、选取特征词集、文本表示、计算词权值、样本分类等步骤。首先本论文在阐明Web中文分类关键技术的基础上，总结了研究的背景及现状，分析了研究的流程思路，做了很多理论和实现上的研究。理论方面，在综合分析总结了已有方法的不足之后，对分类过程中的一些环节进行了改进。针对Web下的特殊使用环境，提出了在特征选择之前，不同位置的文本，分区域、分步骤并赋予不同权重处理的思路；对于卡方统计只顾文档频率而没考虑词频，本类出现少而非本类中普遍存在时极有可能被选为特征词以及自身公式中均匀分布纠正惩罚能力不够等情况，提出了词频补偿因子、类别比重因子、类内分布因子的概念，将它们乘在传统方法的公式后面作为补偿来对原方法加以改进，取得了良好的效果；在分类算法方面，重点研究了KNN算法，在深入分析其原理后总结出了优缺点。针对KNN算法采用内积公式计算文本相似度比较粗糙的情况（文中已举例说明），给出了一种利用相似接近系数进行完善的方法。通过设计相关试验证明，以上改进后的措施在准确率、召回率、F1值等方面都有不同程度的提高。实现方面，本文设计了用于Web中文文本分类试验的小工具软件，包括用于建立样本库的Web网页采集模块，用于处理文本和分类过程的分类模块，用于评估对比最终结果的评估模块。并提供了设计的主要方案和用到的一些关键技术。

其他学术论文