XML模式映射的建立、维护以及复合技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:youhayou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种共享异构数据源的途径,数据集成系统有着广泛的应用需求。模式映射是数据集成系统的重要组成,通常由视图定义(查询)语言表示,它描述了不同模式之间的数据是如何转换的,是系统实现查询重写和数据转换的重要依据。在系统能够运行之前,用户(系统管理员)必须在给定模式之间建立这样的映射关系:另一方面,当模式、或者应用需求发生变化时,用户还必须对原来的模式映射进行相应的维护。由于不同模式之间在结构、语义上都存在差异,因此映射的建立和维护任务十分的烦琐复杂。当前已经有一些技术能够以半自动的方式来辅助用户处理这些任务,但是由于这些技术的自动化程度等诸多因素,用户仍然不可避免的需要直接以手工方式来处理这些复杂的映射表达式。本文以XML数据集成为背景,提出了一种称为Macor(映射关联)的映射表示模型。与直接用查询语句来表示模式映射的方式相比,Macor模型将映射表示成很多简单的原子映射,这些原子映射由关联关系连接在一起,并构成树结构。Macor模型为用户处理映射任务带来了方便:对于映射的建立问题,用户可以从简单的原子映射开始,逐步将它们组装成复杂的全局的映射关系,这种由简到繁的处理方式,使得Macor模型特别适合于解决复杂模式之间的映射问题;对于模式映射的维护问题,用户可以修改局部的原子映射或者关联关系,而保留和复用映射的其余部分。区分了XQuery查询语言的一个子集(称为CoXQ),并以此分析了Macor模型的表达能力。进一步,介绍了如何在Macor模型的实现框架中结合当前一些半自动的映射技术,以辅助用户处理Macor映射。 在大规模的数据集成系统(如PDMS,Peer数据管理系统)中,不同结点之间的模式映射形成映射链,其长度和数量都十分可观。根据映射链,系统以一种递归的方式处理用户提交的查询。这种查询处理方式的性能十分低,为此映射复合技术被用来预先计算出与映射链等价的复合映射。根据复合映射,系统能够将用户查询直接重写为各相关结点的数据源查询,从而提高查询效率。然而,映射链中任意一个映射的变化都将导致复合映射的更新维护。当前并没有这方面的技术,只能采用重新复合计算的方法,严重影响了系统的可伸缩性。这是因为一方面在Web这样的动态环境中,系统中任何一个映射都有可能随时发生变化;另一方面,对于大规模的数据集成系统,一个映射的变化又可能影响到众多映射链的复合映射。基于前文的Macoz·映射模型,本文提出了一种复合映射的增量维护技术。与其它复合技术不同,Macor映射的复合计算可以分解为原子映射之间的复合计算。因此在映射链的复合计算过程中,分属不同映射的各原子映射之间存在一种复合路径轨迹,以复合路径图记录这些轨迹。当映射链中某个映射发生变化时,就能根据复合路径图来确定整个映射链中有哪些原子映射受到影响,从而将完全重新复合计算的维护方法转化为复合计算这些原子映射的增量维护方法。算法分析和实验结果表明,这种增量维护技术的效率不仅与映射本身的变化相关,还与映射链的长度有关。当映射链的长度越长,增量维护的方法就可能退化为完全维护的方法,但是当我们额外存储一些中间复合结果后,可以消除映射链长度对增量维护效果的影响。
其他文献
道路是遥感影像中重要的地物信息,其智能识别与定位对于电子地图的动态更新、影像数据库的建立、遥感影像的分析等领域都具有重要的意义。本文针对高分辨率遥感影像城市道路的
肺癌的死亡率远高于世界上其它的癌症。在全世界,每年死于肺癌的人数超过1000000,这个数字远高于由于肠癌、乳腺癌和前列腺癌死亡的人数。对肺癌的早期诊断和治疗是降低其死亡
摘要:太阳能是一种具有对环境污染最小和二氧化碳排放最低的可再生能源。为了避免能源危机,人们将更多的使用太阳能。因此,估算太阳能发电厂所产生的电量是很有意义的。近几年
在网格环境中,资源是异构的、分散的,大量地理上分布的资源为不同的组织所拥有。由于这些组织具有不同的使用规则、不同的计费模型和不一样的负荷能力,构造具有集中的资源管理和
Web服务选择是Web服务中重要的组成部分。传统的Web服务选择只是简单的基于关键字的语法匹配,查询得到的服务包含了大量用户需求的以外的大量的垃圾服务,导致搜索的用户体验很
随着数字化医疗的发展,医疗机构每天产生大量医学诊断相关数据,如何充分利用、挖掘这些数据中包含的重要知识,以辅助医生作出快速、准确的诊断,已经成为当今亟待解决的问题。此外
电子商务环境包括多方之间利用电子技术进行的所有在线活动和业务运营,随着互联网和电子商务网站的巨大发展,当消费者选择他们所需物资和商品时,他们面临着严重的数据重载问题。
网格技术源于20世纪90年代的美国政府的分布式超级计算项目Ⅰ-WAY。网格把分布在不同地点的、不同单位的、不同计算节点的各种计算和信息服务资源,例如计算能力、存储能力和信
当今时代是网络的时代,网络在社会中的作用越来越明显。人们对网络的依赖和需求也随之增多,对网络所提供服务的要求越来越高。学习计算机网络的基本知识就显得尤为重要。为了
随着社会的发展,对计算能力的要求越来越高,网格计算的应用范围也就越来越广泛。此外,由于网格的动态性、分布性和异构性等特点导致网格资源管理和网格任务调度面临着巨大的挑战