论文部分内容阅读
信息技术的快速发展促使Web上的数据爆炸式的增长,如何从海量的Web数据中高效准确的获得想要的知识成为热门的研究课题。Web挖掘就是从Web信息中获取潜在的、有价值的知识或模式的过程,分类、聚类、特征选择等作为Web挖掘的主要技术已经得到长足的发展。聚类分析在Web挖掘中占有重要的地位,所谓聚类就是按照某种相似性度量,根据一定的准则将一个对象集合成若干类,使得同类对象之间尽可能的相似,不同类对象之间尽可能的相异。聚类作为Web挖掘的预处理阶段可以通过分类数据来提高挖掘的效率和精确率。Web页面多数以HTML文本的形式存在,但随着Web数据的多样化和复杂化,HTML文档已经满足不了信息处理和信息交换的要求。XML是由W3C提出的标准,由于灵活性、开放性和自描述性等特点,逐渐成为Web上主流数据格式和交换标准。因此XML聚类研究具有重要的意义。本文对XML聚类进行了系统的分析和研究,针对XML特性提出了一种能够包含语义的特征提取方法,在此基础上提出一些改进的聚类算法,并在真实文档集和人工文档集上进行了聚类实验。本文工作和创新如下:首先本文对文档聚类的聚类算法和XML相关规范进行了总结分析,指出了目前文档聚类领域常用聚类算法的不足。接着重点研究了XML文档聚类的关键问题—文档相似性度量方法,分析了经典编辑距离法和基于边集的XML文档相似度测度方法,在分析了空间向量模型的基础上提出了标签与路径相结合的XML文档向量模型,根据文档树的层次赋予向量特征一定的权值,能够表达XML元素嵌套的语义信息,通过在示例文档上计算相似度与编辑距离法和基于边集的方法等相似度度量方法进行了比较,计算结果证明此方法对难分文档具有更好的区分能力。机器学习技术是Web挖掘的重要技术支撑,其中集成学习和半监督学习是机器学习近几年新兴崛起的技术,大量研究和实验已经证明集成学习和半监督学习可以改进聚类和分类的性能。本文基于集成学习和半监督学习对传统聚类算法进行了改进,针对传统单一的划分聚类算法和层次聚类算法的弱点,提出了一种基于Bagging的集成聚类算法,在基聚类器生成阶段使用bootstrap抽样产生原始文档集的多个子集,在文档子集上基于加权的标签和路径特征向量运行划分聚类算法,然后使用聚类共识率来删除低质量的聚类中心,在生成的聚类中心集合上进行层次聚类得到最终的结果。由于集成聚类的计算复杂度较高,本文对提出的集成聚类算法进行了改进,提出一种基于半监督学习的聚类算法,使用适当暂停的模糊划分聚类FCM算法来抽样原始文档集,选择在FCM聚类中心附近的数据点组成数据子集,对数据子集仍然使用层次聚类算法,然后用得到的聚类中心点作为监督信息来指导FCM算法继续执行。最后我们在真实文档集和人工文档集上分别应用本文聚类算法,结果表明本文算法聚类质量优于单一聚类算法,并且具有较高的鲁棒性。