论文部分内容阅读
数据库技术是过去几十年数据管理的主要手段,取得了丰硕的成果。进入二十世纪九十年代后,数据管理面临新的应用需求,首先是数据管理主体的扩展;其次是很多新应用依赖于大量分散的、高质量的、相关的数据源,这些应用除要求具有传统的查询和检索能力、充分利用目前互联网带来的数据共享能力外,还需要考究数据的质量、管理数据及其元数据的演化过程、跟踪数据的来源、分析数据之间的关联;再次就是人们对数据管理的性能要求越来越高。传统的数据管理方法已经很难应对这些新的应用需求,寻找新的数据管理技术是解决问题的必然途径。数据空间(DataSpace)正是在这种情况下出现的一种新的数据管理技术。
数据空间是一种面向实体的数据组织形式,可包含与某个组织或个体相关的一切信息,使数据处理独立于数据的存在形式、存储格式、存储地点。数据空间的特点是淡化形式,凸现数据,支持多种不同的数据源,独立于数据源,强调数据的可关联性和可演化性。数据空间支撑平台(DataSpace Support Platforms,DSSP)面向实体需要,提供数据空间上的具有Pay-As-You-Go特性的包括结构化查询、关键字查询在内的服务。
本文针对数据空间研究中的若干问题,提出一个统一常见数据类型并可扩充其他类型的层次数据空间模型,以该模型为基础提出了一种DSSP的参考体系结构,并以这种体系结构实现了一个原型系统-AMDE数据空间支撑平台。同时,研究了数据空间中的数据演化,提出了一种新的数据定义方法,给出了数据演化中遗传信息的数据基因组模型;研究了数据空间中虚拟数据源上的查询优化,给出了一系列算法;分析了数据空间支撑平台内访问控制的要求,提出了一种具有空间约束的访问控制模型。
本文从上述几个方面展开研究,主要工作和创新点如下:
(1)提出一种层次数据空间模型。数据空间以资源摘要形式组织数据,可包含其他数据空间。资源摘要统一了文件系统、数据库、Web数据、短信、表格、邮件、XML等数据类型,也可表达虚拟数据、流数据,摆脱了传统的数据模型只能描述单一数据类型的限制;给出了计算生成子空间的算法,以提高数据空间导航性能;定义了常见数据类型的资源摘要抽象类;给出了数据空间的融合、分裂等算法。以该模型为基础,给出了一种DSSP的参考实现体系结构。整个体系分为三层,数据空间将平台中的数据项组织为一个虚拟数据层,数据空间引擎实现数据空间上的逻辑计算,应用支撑服务层为用户提供数据空间服务,包括数据发布、查询与检索、数据物化、演化过程分析等服务。
(2)提出数据包含内在语义和外延语义,其语义变化过程称为数据演化;提出一种新的数据定义方法一数据是具有计算能力的实体,包含数据对象、遗传信息和计算系统。数据对象是对信息内容的抽象,体现数据的内在语义;遗传信息是对派生过程的抽象,表达数据的外延语义及语义变化;计算系统实现与外部环境及其他实体的交互,将语义变化过程记录在遗传信息中。
(3)提出一种遗传信息的抽象模型一数据基因组模型(Data Genome Model,DGM),运用集合论给出了模型的形式化定义,分析了数据基因组模型的性质;给出了数据演化过程中数据基因组的演化方法,包括克隆、加尾、遗传、变异、融合、剪枝等6个变换;给出了数据基因组代数及相应的查询语言;给出了现有条件下数据基因组的存储方法;设计了遗传信息的查询与优化系统。分析表明,数据演化是实现数据质量审核、数据流监控、信息流跟踪等的重要手段。
(4)建立了DSSP中关系数据源上执行查询的代价模型,基于代价模型给出了单一关系或简单虚拟视图上查询的复本选择和分段方法:当物理数据源分布形成不同的网络结点组合时,基于代价模型和半连接给出了复杂查询或复合虚拟视图查询时的查询优化执行计划;给出了并行分布连接算法。
(5)针对DSSP数据访问的特点,提出一种具有空间约束的基于角色的访问控制模型。该模型基于常识性地理认知定义了的物理区域和逻辑区域的概念,并形式化描述了物理区域之间、逻辑区域之间、物理区域与逻辑区域之间的空间关系。基于此,描述了作用于用户角色分配和角色权限分配的空间约束。
(6)以DSSP的网络传输需要为出发点,设计了一个网络传输中间件。该中间件采用半同步/半异步模式,以P2P方式进行数据传输。采用不予唤醒策略以保证各种应用传输时的公平性,采用滑动窗口协议从应用角度保证传输的可靠性。
论文最后对研究工作进行了总结,提出了今后进一步的研究方向。