论文部分内容阅读
随着信息技术的飞速发展,知识量急剧增长,数据挖掘技术提供了一种从海量数据中寻找所需信息的有效理论。数据挖掘中数据的形式是多样的,本文主要是针对以中文为信息载体的文本,对中文形式的数据进行挖掘,利用近邻传播算法(Affinity Propagation Algorithm,后文简称AP算法)及其相关改进,实现文本集的聚类。本研究设计分为两大部分,第一部分主要是对中文文本的处理工作;第二部分主要是对聚类算法---AP算法进行研究,然后对算法做出改进、更新,最后应用到中文文本挖掘中。由于中文字符的编码特性,中文词语无空格标识、难切分,以及中文语义导致切分产生歧义、无法识别未登录词等诸多问题,故在挖掘前需对数据进行预处理。本文选用中科院提供的ICTCLAS软件接口实现分词。分词后通过编程实现对文本数据的处理,计算特征向量、特征矩阵、相似度矩阵。最后,将处理结果写入相关文件中。本文选取AP算法作为聚类核心算法来实现聚类。第一,首先与Kmeans进行对比试验,观察AP算法聚类性能,然后对AP算法做出改进。第二,改变作为该算法输入的相似度矩阵的计算方法,通过降低文本集数据表征的特征向量的维度来提升计算相似度的速度,同时也提升表征文本集间信息的性能。第三,改进算法迭代过程中引入的阻尼因子λ的计算方法,提高对算法收敛的控制及避免算法因数据因素可能产生的震荡干扰,从而增强对算法健壮性的控制。第四,改进偏好参数p的计算方法,根据聚类需要,控制聚类数。整个更新的AP聚类算法在matlab下编程实现,通过与原AP算法对比试验,观察性能的提升状况。试验对比发现,更新后的AP算法比原AP算法具有更为优越的聚类性能。最后用更新后的AP算法来聚类中文文本集,实现了100篇tet文档的中文文本集的聚类。本文的实验前部分利用面向对象语言java实现文本的读写、预处理、计算相似度矩阵,并将相似度矩阵写入excel表格中。后部分使用matlab编程实现聚类算法,最终将聚类结果写入excel表格中。