web中文文本的数据挖掘技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:skywing_wing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息的急剧增长,人们迫切需要一种技术来对信息进行组织和管理,帮助用户快速、准确地找到需要的信息,数据挖掘和web技术相结合的web挖掘应运而生。文本作为web上信息的主要形式,文本挖掘近年来成为研究的热点。中文文本挖掘起步较晚,在理论研究和应用方面都落后于英文文本挖掘,因此本文以web中文文本挖掘作为研究重点。本文主要研究的是文本挖掘中web中文文本的聚类和分类问题。文本分类和聚类是文本挖掘中的关键技术,通过对文本进行归档整理,可以在很大程度上解决信息爆炸和信息杂乱的问题。同时作为信息检索、信息过滤、搜索引擎、电子图书馆、文本数据库等领域的技术基础,文本分类和聚类应用领域非常广泛。文章首先对相关的理论知识进行了介绍,概念从大到小包括数据挖掘、web挖掘、文本挖掘以及文本分类和聚类;对文本进行分类和聚类首先要把文本转化为计算机可以处理的形式,所以接下来我们对web文档矩阵化形式转化的预处理过程进行了研究;最后将我们提出的聚类和分类算法应用到中文文本的聚类和分类中。文章介绍和实现了常用的聚类算法:K-means算法和模糊c均值(FCM)算法。将web文档矩阵化首先要从网页中去掉HTML标记,滤掉无关信息,解析出纯文本;中文文本和英文文本不同,词与词之间没有间隔,所以要进行分词处理;然后采用权重计算公式计算出特征词项的权重,基本思想是若某特征词在本篇文档中出现的次数多,而在其他文档中出现的次数少,该词被赋予更高的权重来代表本文档,并与其他文档进行区分。这样web文档就转化为词项-文档的向量空间,以便后面的聚类和分类算法的执行。文章分析了文本挖掘过程中文本矩阵的高维性和稀疏性的特点,并针对此特点提出将基于子空间的聚类算法和基于语义的奇异值分解的聚类算法两种方法应用于中文文本的聚类。某个主题的文本会有特定的主题词子集,存在着特征子空间的结构。采用子空间聚类可以忽略掉对分类不重要的维,给重要的维赋予更高的权重,凸显主题词子集对分类的作用,解决高维性和稀疏性问题,所以基于子空间的聚类可以提高聚类的准确率和效率,对文档数据的实验结果证明,该算法聚类效果令人满意。奇异值分解对数据集的特征值按重要性排序,一方面把不重要的维看做“噪声”忽略掉,凸显词项和文章之间的语义关系,另一方面使得文档矩阵维数大大缩减,从而提高文档聚类的准确性。我们先用奇异值分解对文档矩阵降维,后用人工鱼群优化算法对文本聚类,对文档数据的实验结果证明这种方法在保证准确率的情况下提高了效率。本文还实现了改进的支持向量机的文本分类。因为支持向量机的惩罚因子和核函数参数的选择对分类的效果有很大影响,所以本文首先用粒子群优化算法优化惩罚因子和核函数参数,后用支持向量机进行文本分类,仿真结果证明支持向量机分类的有效性。
其他文献
机会网络以其独特的优点,正越来越多的受到各界的广泛关注,研究者也将其作为无线通信领域研究和开发热点之一。在机会网络中,节点之间的连接是间歇性的,源节点和目的节点之间的连
随着我国移动通信事业不断发展,网络覆盖面积不断扩大,基站巡检已经成为了通信公司工作的重中之重。在此条件下,传统的人工巡检方式远远无法满足基站巡检的基本要求。然而,近
在生化反应过程中,影响生化反应效率的因素很多,如:含有多种微生物的菌悬液、微生物的活性、生物量浓度、PH值、循环液流量、温度等。在这些因素中,生物量浓度是重要的工艺参
随着当今科技的飞速发展,水下目标探测技术的发展也日益增强,为了能够有效的对抗敌方的探测,反跟踪技术也在迅速的发展,其中回波抵消技术属于反跟踪技术之一。为了满足实际应
水声对抗和目标隐身技术的不断发展使得水下微弱目标信号的检测面临严峻挑战。由于水介质的不均匀性和界面的不平整性,声呐接收到的是畸变的包络起伏信号。微弱的包络随机起
声场既是标量场又是矢量场。矢量水听器能够同时对声场的声压和振速进行测量,进而获得更加全面的声场信息,因此,仅使用单只矢量水听器就能够对水下声源进行方位估计。此外,由于单只矢量水听器体积小、布放方便灵活等特点,使得基于单只矢量水听器的目标方位估计技术一直备受广大国内外学者的关注。在此背景下,本文针对单矢量水听器空间谱估计在低信噪比条件下,会出现谱峰宽度变宽估计效果变差等性能恶化的问题,提出一种基于单
会计具有核算和监督两大职能,二者互为表里。会计监督离不开会计信息的作用,而会计信息的产生有赖于会计核算;同时,会计监督又保障了会计信息的真实、正确。随着市场经济的发展,会计监督作为保障经济持续正常发展的重要手段,其作用与日俱增。但是,现实生活中,会计信息失真的现象却充斥着经济领域,严重影响了经济秩序。而导致这一结果的一个重要原因就是会计监督的弱化。本文将就会计监督职能的强化对策做一浅薄阐述。  一
期刊
随着软件无线电思想的普及,数据采集卡的日新月异的高速发展,基于各种系统总线的数据采集卡被使用于工控机上用作高速数据采集,这对虚拟仪器系统提出了更高更新的要求。对自
LTE(长期演进)是3GPP近两年来启动的最大的新技术研发项目,由于3G已无法满足用户对于网络的需求,且WINMAX步步紧逼,LTE应运而生。它改进并增强了3G的空中接入技术,采用OFDM和MIMO
数字多媒体易于修改的特性,使其变得很不安全。传统的加密技术已不能满足需要,水印技术的出现提供了一种有效的解决方案。随着视频服务的广泛应用,对视频内容的版权保护问题