基于概要树的XML结构化查询模型的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:dwddKTV
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着XML数据被广泛应用于互联网服务、信息集成等各个领域,针对XML数据的结构化查询,尤其是作为其核心操作的多分支查询,已经在研究领域成为一个热点话题。虽然在最近几年,为了高效地处理XML的结构化查询,大量的算法已经被提出,但是现有的算法却并没有对XML DTD文件和XML scheme文件进行充分得利用,而通过本文的工作可知,若能合理利用这两种文件,将能较大的提高XML结构化查询的效率。  本文基于北京大学数据库实验室的国家863高技术研究发展重大专项支持项目“无缝集成的关系-XML双引擎数据库管理系统研制及其示范应用”以及国家“核高基”重大专项课题“大型通用数据库管理系统与套件研发及产业化--XML数据管理技术研究与开发”,在深入调研国内外大量相关工作的基础上,提出了一种新的针对XML数据的查询处理方法。本文的主要贡献如下:⑴提出了一种基于路径同构和标签同名的概要树模型(包括概要树的相关定义和定理);⑵提出了两种概要树的构建方法:基于模板文件的概要树构建方法和基于实例数据的增量式概要树构建方法,并对这两种方法进行了深入的分析和比较;⑶在概要树模型的基础上,提出了一种新的编码方式,称为概要杜威编码,并提出了三种概要杜威编码的压缩方式。通过使用概要杜威编码,本文不仅可以对文档元素编码,也可以对查询路径进行编码;⑷提出了一种新的路径匹配算法(PathCheck算法)和一种新的分支匹配算法(TJumperJoin算法)。在查询处理过程中,它们只需要扫描与查询的叶子节点相关的元素,并且可以借助位操作完成路径匹配。此外,TJumperJoin算法还可以跳过大量与最终结果无关的元素;⑸实现了本文所提出的编码方法和查询算法,并在各种不同大小、不同种类的数据集上,通过大量的与其它同类方法的对比试验,对它们的效率进行了测试。
其他文献
网络钓鱼(Phishing)是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展,网络钓鱼这种以互联网为载体的犯罪行
随着技术的发展,大幅面、高分辨率的显示设备在我们的生活中越来越常见,这些显示设备以其大数据集显示能力在各个科研领域都得到了广泛的应用,但是目前仍缺乏针对这种大型显示设
现今,随着万维网(WorldWideWeb)的快速发展,非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数
Web InfoMall是一个历史网页的存储和展示系统,已经存储了从2001年至今的中国互联网上近50亿网页,并且数据量以每月3000万的速度增长着。当网页数据被收集到系统中后,需要经
许多大型网站、运营商和数据中心都采用Multihoming技术,使用多条链路与Internet相连以提高网络可靠性,加速网络访问。对不同的目标地址选用质量最高的链路出口可以最大限度
互联网从诞生以来一直遭受着黑客攻击和恶意代码的威胁,随着互联网成为人们日常生活不可或缺的一部分,由地下经济链等多种因素驱动,新形态的安全威胁不断涌现并持续演化,从计
当今社会化媒体正在获得越来越多的关注,并且已经成为许多网民日常生活的必要元素。不同功能的社会化媒体网站为用户提供上传信息、图片、视频等各种类型资源的平台。除资源上
随着近年来假币犯罪案件的高发,案件数量逐年增多,涉案金额越来越大,呈现出团伙性作案的特点,这极大影响了社会的经济秩序。由于案件数量的增多,传统的由警员手动分析案件的方式已
在纺织工业界,由于各种原因存在许多遗失原始设计稿件的织物样品。通常对遗失设计稿件的织物进行再生产,就必须先由经验丰富的设计人员对织物样品进行手工临摹来得到设计稿,
在印刷行业中,图像由于其直观性和广泛适用性,对印刷品的质量起着至关重要的作用,对于承印物为织物的纺织印刷业中来说就更是如此。因此,印前图像处理便成了印刷过程中不可或