论文部分内容阅读
随着计算机网络技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富且内容复杂多样,其中既有大量进步、健康的信息,也不乏反动、迷信的内容。因此,如何对这样庞大的信息资源进行快速有效的检索分析,对网络舆论进行准确的预测引导成为一个重要而迫切的研究课题。于是,数据挖掘这门技术应运而生,它以数据库技术为基础,融合统计学、机器学习、模糊学等多门学科的成果,研究如何从数据库中提取隐含的、未知的有潜在应用价值的信息或模式。聚类分析在这项技术中占有重要的位置,它通过比较数据的相似性和差异性将一个数据集合分割成几个称为类的子集,从而发现数据信息的内在特征和分布规律。本论文在系统回顾网络信息检索、数据挖掘和聚类算法应用研究现状的基础上,总结了目前通用的聚类算法存在的问题,试图设计一种适用于中文网络文本信息的聚类算法,并进而设计实现一个网络信息聚类系统。本论文的研究内容和创新工作主要体现在以下几点:(1)分析了几种通用的聚类算法,包括基于划分、基于层次、基于密度、基于网格和基于模型聚类算法,通过实验数据分析比较了几种算法的性能和优缺点,分析了它们在网络信息聚类应用中的缺陷。(2)研究了中文网络信息聚类应用中的几种关键技术,包括分词技术、文本表示、特征降维、权重分析和相似度计算。(3)引入二叉检索树对后缀树聚类算法在中文网络信息聚类中的应用进行了研究和改进。(4)对典型的k-平均算法、后缀树聚类算法和改进后的算法进行实验分析,在算法准确率和时间复杂度上进行了比较。(5)设计并实现了基于改进后缀树聚类算法的网络文本信息聚类系统,通过系统运行实验验证了改进的后缀树聚类算法在中文网络文本信息聚类中的可行性和有效性。