Web挖掘中的XML文档聚类研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:hopehappy501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展促使Web上的数据爆炸式的增长,如何从海量的Web数据中高效准确的获得想要的知识成为热门的研究课题。Web挖掘就是从Web信息中获取潜在的、有价值的知识或模式的过程,分类、聚类、特征选择等作为Web挖掘的主要技术已经得到长足的发展。聚类分析在Web挖掘中占有重要的地位,所谓聚类就是按照某种相似性度量,根据一定的准则将一个对象集合成若干类,使得同类对象之间尽可能的相似,不同类对象之间尽可能的相异。聚类作为Web挖掘的预处理阶段可以通过分类数据来提高挖掘的效率和精确率。Web页面多数以HTML文本的形式存在,但随着Web数据的多样化和复杂化,HTML文档已经满足不了信息处理和信息交换的要求。XML是由W3C提出的标准,由于灵活性、开放性和自描述性等特点,逐渐成为Web上主流数据格式和交换标准。因此XML聚类研究具有重要的意义。本文对XML聚类进行了系统的分析和研究,针对XML特性提出了一种能够包含语义的特征提取方法,在此基础上提出一些改进的聚类算法,并在真实文档集和人工文档集上进行了聚类实验。本文工作和创新如下:首先本文对文档聚类的聚类算法和XML相关规范进行了总结分析,指出了目前文档聚类领域常用聚类算法的不足。接着重点研究了XML文档聚类的关键问题—文档相似性度量方法,分析了经典编辑距离法和基于边集的XML文档相似度测度方法,在分析了空间向量模型的基础上提出了标签与路径相结合的XML文档向量模型,根据文档树的层次赋予向量特征一定的权值,能够表达XML元素嵌套的语义信息,通过在示例文档上计算相似度与编辑距离法和基于边集的方法等相似度度量方法进行了比较,计算结果证明此方法对难分文档具有更好的区分能力。机器学习技术是Web挖掘的重要技术支撑,其中集成学习和半监督学习是机器学习近几年新兴崛起的技术,大量研究和实验已经证明集成学习和半监督学习可以改进聚类和分类的性能。本文基于集成学习和半监督学习对传统聚类算法进行了改进,针对传统单一的划分聚类算法和层次聚类算法的弱点,提出了一种基于Bagging的集成聚类算法,在基聚类器生成阶段使用bootstrap抽样产生原始文档集的多个子集,在文档子集上基于加权的标签和路径特征向量运行划分聚类算法,然后使用聚类共识率来删除低质量的聚类中心,在生成的聚类中心集合上进行层次聚类得到最终的结果。由于集成聚类的计算复杂度较高,本文对提出的集成聚类算法进行了改进,提出一种基于半监督学习的聚类算法,使用适当暂停的模糊划分聚类FCM算法来抽样原始文档集,选择在FCM聚类中心附近的数据点组成数据子集,对数据子集仍然使用层次聚类算法,然后用得到的聚类中心点作为监督信息来指导FCM算法继续执行。最后我们在真实文档集和人工文档集上分别应用本文聚类算法,结果表明本文算法聚类质量优于单一聚类算法,并且具有较高的鲁棒性。
其他文献
本文对IEC 61850“变电站通信网络与系统”标准进行了深入的分析和研究,并结合电网继电保护设备故障信息系统的特点,提出了基于IEC 61850的继电保护故障信息系统。主要做了如下具体工作:介绍了IEC 61850建模原理、信息模型及通讯原理,详细介绍基于XML技术的变电站配置语言SCL及相应的使用方法;讨论了信息模型及ACSI到MMS的映射方法;完成了以断路器为辑逻节点的信息模型的建模;提出了
移动通信技术和Internet技术正在飞速的发展,各种功能强大的便携式终端层出不穷并越来越普及,随时随地都可以上网的移动IP技术成为未来的发展方向。1996年IETF就出台了移动IP
在中国目前90%以上的持卡者使用借记卡,并且存在庞大的移动用户,金融支付手段和移动业务的结合促进了移动支付的发展。当前国内移动支付主要是由移动运营商参与,银行并不是主
J2EE框架是当前企业级网络应用系统最主要的平台之一,代表了最新的应用程序构架发展方向。J2EE框架不仅是一种适合于构建企业级应用程序的技术,更是一种具有很大潜力的分布式对
网络管理是保证一个网络可靠并高效运行的重要过程,故障管理是网络管理的主要功能之一,故障定位则是网络故障管理的核心内容。传统的依靠网络专家以人工方式进行的故障定位已
随着网络和数字电视的迅速发展,丰富的视频数据大量涌现,如何快速高效地访问海量的视频数据,已成为信息时代人们迫切需要解决的问题。因此,基于内容的视频检索技术(CBVR)就成
随着计算机和网络在日常工作中的广泛应用,工作流技术成为协调企业业务过程、增强企业应变能力和竞争力的重要技术。分布、异构环境中的大规模工作流应用具有结构复杂性、长
随着计算机与网络通信技术的高速发展,互联网已经将政务、商务、以及人们的日常生活紧密联系在一起。但是,在享受信息高度网络化带来的种种便利之时,我们还必须应对随之而来
频率规划与优化是网络优化工作的重要内容之一。频率分配,也称为信道分配问题(CAP),是一个经典的组合优化问题,它要求把有限的可用信道资源分配给众多移动语音或数据用户的同
双目立体视觉是基于视差原理,由多幅图像获取物体三维几何信息的方法。目前已在许多领域得到广泛应用,是近年来的一个研究热点。本文研究了立体视觉中最重要也是最困难的立体