基于XML Schema的模式匹配研究与应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:TRACY101688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和信息技术的飞速发展,网上数据交换也越来越频繁。XML因具有可扩展性、跨平台性、自描述性等优点,逐步成为网上信息表达和数据交换的事实标准。但是在享受XML带来便捷的同时,由于XML的标签可以自由定制,数据交换面临模式不统一的问题,如何匹配不同模式文档中的信息,已成为数据交换领域亟待解决的问题。 本文从研究模式匹配入手,分析现有模式匹配方法的优缺点,重点研究了基于模式的匹配方法。在综合已有模式匹配方法的基础上,结合XML文档数据和Schema的特点,本文提出了一种基于XML Schema的模式匹配方法。首先,结合XML的最新变化,在计算元素的语义相似时,采用提取元素的特征信息来计算其相似度,而非单纯的字符串匹配。其次,本文重点研究了XML Schema的数据类型,鉴于XML Schema数据类型的特殊性,打破传统匹配方法把数据类型当作约束信息对待的思想,着重研究了复合数据类型之间的相似,并提出一种计算复合数据类型问相似的算法——CDTS(Compound DataType Similarity)。最后,在研究元素结构相似性时,本文不仅考虑了孩子节点、祖先节点、兄弟节点的影响,同时还考虑了这种特性的传播特点。本文借鉴Similarity Flooding算法思想,提出一种新的结构相似算法——SSF(Structural Similarity Flooding)计算元素的结构相似度。 最后,本文从实践角度出发,通过实验和对比分析,验证了算法的高效性。并且通过一个实际的例子,应用本文算法介绍了转换XML文档的整个流程。
其他文献
光纤通信技术的迅速发展,特别是密集波分复用(DWDM)技术的发展,使单波长上的数据传输率达到80Gbps,单根光纤接近Tbps,从而为利用计算机网络实现有线电视网络、电话交换网络和
惯性器件为飞行器提供位置、姿态等导航信息,是飞行器上的重要设备。惯性器件精度和特性的测试是应用中的重要问题,论文讨论了惯性组件测试评价系统的开发。论文介绍了惯性组
数据仓库的构建是一个复杂,庞大,循环往复的过程。要构建一个优秀的数据仓库平台涉及到很多技术,需要考虑很多方面。本文就数据仓库中的优化问题提出探讨。 本文首先介绍一些
给定一个有穷字符集∑,假设S是由∑中的n个字符组成的文本串,P则是由∑中的m个字符组成的模式串。模式匹配就是查找模式串P在文本串S中符合特定条件的所有出现。在巨大数据集的
基于步态的身份识别是近几年出现的一种新的生物识别技术。步态是指人们行走的姿势,步态特征是目前远距离情况下唯一可感知的生物行为特征。与传统的生物特征相比,步态特征具
转换系统作为经典的形式化模型,被广泛用于描述并发系统的行为。然而,在经典的转换系统中,标记自身所包含的结构性质并未被考虑,当考察附有特定要求的并发系统时,通常需要一
联合补充问题,是指从一个供货商那里订购多种物品,采用某几种物品联合订购的过程。在传统的库存补充模型中,研究者大都假设了主要订购费用、各物品次要订购费用、各物品单位库存保管费用等关键因素为已知常数,然后根据要求确定哪几种物品联合补充。但在实际情况中,有些影响联合补充的因素是不确定的,例如,需求量随市场波动而变化,订购提前期可能会受到运输条件的影响等,从而形成了联合补充的不确定环境。在复杂的联合补充系
通信技术是20世纪80年代以来发展最快的学科之一,也是人类进入信息社会的重要标志。纵观通信发展的语言文字通信、电通信、电子信息通信三个阶段,信息传输的安全性和保密性一直
歌手识别是音乐检索和分类中的一个重要分支。本文选取MP3格式的音乐作为研究对象,提取了MP3格式音乐的音素特征,对基于MP3内容的歌手识别技术进行了研究。 本文的歌手识别