XML文档聚类研究与应用

来源 :南京航空航天大学 | 被引量 : 2次 | 上传用户:biiq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(e Xtensible Markup Language)是因特网中信息描述、传输和交换的重要标准,而XML文档聚类是众多XML文档整合和管理技术中关注的焦点,其目标是有效整合XML文档使之便于存储和传输。相似度计算则是XML文档聚类的关键步骤,而传统XML文档相似度计算方法中,树编辑距离算法时间复杂度较高,元素比较法丢失文档结构特性,边与路径比较法过于局限,扩展性差,而向量空间计算法虽计算简便,但多数算法因其特征权重设定导致无法完整保留文档结构特性。论文着眼于XML文档的特征权重设定,分别从相似度计算和聚类算法选择两方面进行研究,并取得了如下成果:1、论文研究了计算XML文档相似度的pq-gram算法。XML文档的结点在不同XML文档树中所处层次以及本层次中位置都会有所不同,而这些不同正是XML文档结构特性的一种体现,但pq-gram算法在提取pq-gram时未考虑这一点。鉴于此,论文提出了一种新的带权pq-gram算法,通过全面考虑XML文档树中结点的层次及位置,结合其父节点所处的位置,为XML文档结点以及pq-gram设计了全新的权重设定方法,并在权重设定的基础上改进了其相似度计算方法。最后通过聚类算法对三个真实数据集进行聚类,比较聚类精度的优劣以及各聚类簇之间的相似度。2、在此基础上,论文进一步研究了常见的XML文档特征向量提取方法,发现大多数特征提取算法只是针对XML文档结构特性对特征进行权重设定,未考虑各特征之间是存在偏好关系的。事实上,XML聚类不能完全通过结点在XML文档中的层次来判定它对于聚类的重要性。论文在此基础上研究了基于特征偏好的聚类(Clustering with feature order preference,CFP)算法。论文在带权pq-gram算法对XML文档进行特征向量提取的基础上,结合CFP算法,提出了基于特征偏好的XML文档聚类(CXFP)算法。CXFP算法可结合pq-gram权重以及特征偏好权重两个方面,并利用CFP算法的特点,在聚类过程中动态调整特征偏好权重。实验表明CXFP算法通过加入了特征偏好,可显著提高聚类的精度。3、分析了当前国内机场噪声现状,并介绍了对其分析研究的必要性,在此基础上,将CXFP算法应用于机场噪声数据的聚类中,根据不同的聚类需求为数据特征设定偏好权重,实验结果表明,CXFP算法较之其他聚类算法可以取得较优的聚类效果。
其他文献
随着通信技术的高速发展,以及第三代移动通信系统(3G)技术的成熟和即将商用,移动网络的规模正在不断扩大,网络结构也正进行着不断地变化和调整,网络复杂度日益提高,业务更丰富,网元
Open CL全称为Open Computing Language,即开放计算语言,在2008年由Apple公司首先提出,现由非盈利技术联盟Khronos Group管理的一种异构编程框架。其目的在于提出一种通用的
计算机和网络技术的发展使人类逐渐步入了信息化社会,信息安全问题与人们生产生活的联系越来越紧密。密码学与数字签名技术已成为信息安全技术的主要应用之一。网络发展所带
目前大多数企业都有过去遗留下来的异构的系统、应用、商务流程以及数据源构成的应用环境。如何充分利用原有信息系统的资源,建立低代价的、开放灵活的企业应用集成系统,已经成
随着IPv6技术的快速发展,由IPv4网络向IPv6网络的过渡成为Internet研究领域的一个重要课题。NAT-PT是现在应用广泛的过渡技术之一,通过对数据包进行地址转换和协议翻译,能够
本文结合J2ME技术、Web服务技术和XML解析技术以及Spring Web MVC框架,建立了移动Web PDA防汛系统。首先对J2ME技术和Web服务技术进行了研究和分析,阐述了J2ME客户端和Web服
调幅广播具有传播距离远,覆盖范围广的优点,是实现地区性,全国性及国际性广播覆盖的最佳手段之一。DRM(数字AM广播)组织顺应形势的需要,制定了数字调幅广播的国际标准。本文
随着人类社会、经济和科学技术的飞速发展,许多复杂性、非线性、庞大巨系统和快速反应性系统等方面的问题大量呈现在人们的面前,传统的优化方法逐渐陷入困境。这时,自然界中那些
随着Internet的广泛普及,近年来P2P(Peer-to-Peer)技术得到了蓬勃的发展,被广泛地应用于数据共享、电子商务、协同计算等领域。尽管P2P技术在有效利用网络闲置资源、促进网络
粗糙集是一种处理模糊和不确定数据的数学工具,已在人工智能和数据挖掘,模式识别与分类,故障监测等方面得到了良好的应用。属性约简是粗糙集理论研究的一个重要内容,是在保持