论文部分内容阅读
随着Web信息的急剧增长,人们迫切需要一种技术来对信息进行组织和管理,帮助用户快速、准确地找到需要的信息,数据挖掘和web技术相结合的web挖掘应运而生。文本作为web上信息的主要形式,文本挖掘近年来成为研究的热点。中文文本挖掘起步较晚,在理论研究和应用方面都落后于英文文本挖掘,因此本文以web中文文本挖掘作为研究重点。本文主要研究的是文本挖掘中web中文文本的聚类和分类问题。文本分类和聚类是文本挖掘中的关键技术,通过对文本进行归档整理,可以在很大程度上解决信息爆炸和信息杂乱的问题。同时作为信息检索、信息过滤、搜索引擎、电子图书馆、文本数据库等领域的技术基础,文本分类和聚类应用领域非常广泛。文章首先对相关的理论知识进行了介绍,概念从大到小包括数据挖掘、web挖掘、文本挖掘以及文本分类和聚类;对文本进行分类和聚类首先要把文本转化为计算机可以处理的形式,所以接下来我们对web文档矩阵化形式转化的预处理过程进行了研究;最后将我们提出的聚类和分类算法应用到中文文本的聚类和分类中。文章介绍和实现了常用的聚类算法:K-means算法和模糊c均值(FCM)算法。将web文档矩阵化首先要从网页中去掉HTML标记,滤掉无关信息,解析出纯文本;中文文本和英文文本不同,词与词之间没有间隔,所以要进行分词处理;然后采用权重计算公式计算出特征词项的权重,基本思想是若某特征词在本篇文档中出现的次数多,而在其他文档中出现的次数少,该词被赋予更高的权重来代表本文档,并与其他文档进行区分。这样web文档就转化为词项-文档的向量空间,以便后面的聚类和分类算法的执行。文章分析了文本挖掘过程中文本矩阵的高维性和稀疏性的特点,并针对此特点提出将基于子空间的聚类算法和基于语义的奇异值分解的聚类算法两种方法应用于中文文本的聚类。某个主题的文本会有特定的主题词子集,存在着特征子空间的结构。采用子空间聚类可以忽略掉对分类不重要的维,给重要的维赋予更高的权重,凸显主题词子集对分类的作用,解决高维性和稀疏性问题,所以基于子空间的聚类可以提高聚类的准确率和效率,对文档数据的实验结果证明,该算法聚类效果令人满意。奇异值分解对数据集的特征值按重要性排序,一方面把不重要的维看做“噪声”忽略掉,凸显词项和文章之间的语义关系,另一方面使得文档矩阵维数大大缩减,从而提高文档聚类的准确性。我们先用奇异值分解对文档矩阵降维,后用人工鱼群优化算法对文本聚类,对文档数据的实验结果证明这种方法在保证准确率的情况下提高了效率。本文还实现了改进的支持向量机的文本分类。因为支持向量机的惩罚因子和核函数参数的选择对分类的效果有很大影响,所以本文首先用粒子群优化算法优化惩罚因子和核函数参数,后用支持向量机进行文本分类,仿真结果证明支持向量机分类的有效性。