论文部分内容阅读
近年来,随着WWW(World Wide Web)的迅猛发展,半结构数据的管理与集成已成为数据库领域中的一个十分重要的研究方向。特别是XML(eXtensible Markup Language)作为一种新的数据交换事实上的标准,使得WWW上的数据交换和集成成为可能。XML另一个使人感到振奋的是,它的出现将会“把Web变成数据库”。将Web上的半结构数据迁移到XML上是对WWW上巨大数据进行有效管理的一项十分有意义的工作。因而,基于XML的半结构数据管理与集成问题的研究目前已成为国际数据库界的一个重要研究方向之一。 本文对基于XML的半结构数据的管理及集成进行了较为全面而深入的研究和探讨,包括基于XML的半结构数据模型、查询语言、模式发现及抽取、视图机制、XML半结构数据的存储以及数据集成等问题。本文反映了作者自1999年以来的主要研究成果,包括以下内容: 一、在基于XML的半结构数据模型的研究上,首先提出了一种类LISP语言的半结构数据的句法描述形式。使用该句法,可以将半结构数据的描述统一到一种形式化的方法上。本文还对XML数据与半结构数据之间的关系进行了研究,并在此基础上提出了一种带有性质(Property)的基于XML的半结构数据模型,同时给出了将XML数据映象到带有性质的半结构数据模型上的算法,从而将半结构数据中的元数据(性质)与XML文档中元素的属性统一起来。 二、给出了半结构数据查询语言的评价准则。基于这些准则,对一个简单的半结构数据查询核心语言的语法提出了两方面扩充;给出了计算数据图中正规表达式的算法;对半结构数据查询语言的一阶逻辑描述、结构递归和数据图的双态仿真(Bisimulation)等问题进行了研究,提出了一种判定数据图的Bisimulation算法;在XML数据查询语言研究的基础上,设计并实现了一种具有数据库查询特性的Web查询系统原型。 三、对半结构数据的类型及模式的描述形式进行了研究,并分别给出了使用最大不动点语义计算半结构数据类型划分的算法思想和最大仿真(Simulation)计算方法的思想。本文还对模式的抽取及XML模式的描述形式进行了研究,提出了使用Simulation算法抽取Datalog规则的算法思想和基于OEM(Object Exchange Model)的XML DTD模式的形式描述方法。 四、对半结构数据的视图机制进行了研究,并就半结构数据的虚拟视图和实视图(物化视图)维护困难的问题给出了一些解决策略;提出了一种用于异构 西北工业大学博士学住论文一数据源或Web数据集成系统环境的XML视图的体系结构,并就该体系结构中的各主要组成部分进行了论述。 五、对基于XML的半结构数据集成所涉及到的若干问题进行了研究,对三种**L数据的存储方法进行了深入分析和比较,提出井实现了一种**L数掂的OapB存储策略;对数据源上的分布查询计算及数据融合问题进行了研究,给出了一种减少WWW站点间通信量、提高查询计算效率的分布查询计算策略;提出并实现了一种可动态配置的、基于XML的半结构数据集成用的数据包装器 (Wrapper)的原型系统。 本文中的部分研究工作得到了国家自然科学基金及山东省教育厅第二批科研发展计划项目的资助。