数据空间技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zou123456ting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库技术是过去几十年数据管理的主要手段,取得了丰硕的成果。进入二十世纪九十年代后,数据管理面临新的应用需求,首先是数据管理主体的扩展;其次是很多新应用依赖于大量分散的、高质量的、相关的数据源,这些应用除要求具有传统的查询和检索能力、充分利用目前互联网带来的数据共享能力外,还需要考究数据的质量、管理数据及其元数据的演化过程、跟踪数据的来源、分析数据之间的关联;再次就是人们对数据管理的性能要求越来越高。传统的数据管理方法已经很难应对这些新的应用需求,寻找新的数据管理技术是解决问题的必然途径。数据空间(DataSpace)正是在这种情况下出现的一种新的数据管理技术。 数据空间是一种面向实体的数据组织形式,可包含与某个组织或个体相关的一切信息,使数据处理独立于数据的存在形式、存储格式、存储地点。数据空间的特点是淡化形式,凸现数据,支持多种不同的数据源,独立于数据源,强调数据的可关联性和可演化性。数据空间支撑平台(DataSpace Support Platforms,DSSP)面向实体需要,提供数据空间上的具有Pay-As-You-Go特性的包括结构化查询、关键字查询在内的服务。 本文针对数据空间研究中的若干问题,提出一个统一常见数据类型并可扩充其他类型的层次数据空间模型,以该模型为基础提出了一种DSSP的参考体系结构,并以这种体系结构实现了一个原型系统-AMDE数据空间支撑平台。同时,研究了数据空间中的数据演化,提出了一种新的数据定义方法,给出了数据演化中遗传信息的数据基因组模型;研究了数据空间中虚拟数据源上的查询优化,给出了一系列算法;分析了数据空间支撑平台内访问控制的要求,提出了一种具有空间约束的访问控制模型。 本文从上述几个方面展开研究,主要工作和创新点如下: (1)提出一种层次数据空间模型。数据空间以资源摘要形式组织数据,可包含其他数据空间。资源摘要统一了文件系统、数据库、Web数据、短信、表格、邮件、XML等数据类型,也可表达虚拟数据、流数据,摆脱了传统的数据模型只能描述单一数据类型的限制;给出了计算生成子空间的算法,以提高数据空间导航性能;定义了常见数据类型的资源摘要抽象类;给出了数据空间的融合、分裂等算法。以该模型为基础,给出了一种DSSP的参考实现体系结构。整个体系分为三层,数据空间将平台中的数据项组织为一个虚拟数据层,数据空间引擎实现数据空间上的逻辑计算,应用支撑服务层为用户提供数据空间服务,包括数据发布、查询与检索、数据物化、演化过程分析等服务。 (2)提出数据包含内在语义和外延语义,其语义变化过程称为数据演化;提出一种新的数据定义方法一数据是具有计算能力的实体,包含数据对象、遗传信息和计算系统。数据对象是对信息内容的抽象,体现数据的内在语义;遗传信息是对派生过程的抽象,表达数据的外延语义及语义变化;计算系统实现与外部环境及其他实体的交互,将语义变化过程记录在遗传信息中。 (3)提出一种遗传信息的抽象模型一数据基因组模型(Data Genome Model,DGM),运用集合论给出了模型的形式化定义,分析了数据基因组模型的性质;给出了数据演化过程中数据基因组的演化方法,包括克隆、加尾、遗传、变异、融合、剪枝等6个变换;给出了数据基因组代数及相应的查询语言;给出了现有条件下数据基因组的存储方法;设计了遗传信息的查询与优化系统。分析表明,数据演化是实现数据质量审核、数据流监控、信息流跟踪等的重要手段。 (4)建立了DSSP中关系数据源上执行查询的代价模型,基于代价模型给出了单一关系或简单虚拟视图上查询的复本选择和分段方法:当物理数据源分布形成不同的网络结点组合时,基于代价模型和半连接给出了复杂查询或复合虚拟视图查询时的查询优化执行计划;给出了并行分布连接算法。 (5)针对DSSP数据访问的特点,提出一种具有空间约束的基于角色的访问控制模型。该模型基于常识性地理认知定义了的物理区域和逻辑区域的概念,并形式化描述了物理区域之间、逻辑区域之间、物理区域与逻辑区域之间的空间关系。基于此,描述了作用于用户角色分配和角色权限分配的空间约束。 (6)以DSSP的网络传输需要为出发点,设计了一个网络传输中间件。该中间件采用半同步/半异步模式,以P2P方式进行数据传输。采用不予唤醒策略以保证各种应用传输时的公平性,采用滑动窗口协议从应用角度保证传输的可靠性。 论文最后对研究工作进行了总结,提出了今后进一步的研究方向。
其他文献
本文针对乐音音符的识别进行了具有开创性的研究,提出了一套比较有效可行的乐音音符编码方法。 乐音音符编码和自动乐谱编制技术是将纸质乐谱输入到计算机,经过处理,把乐谱图
面对快速增长的海量数据,人们对数据存储和处理系统提出了更高的要求。基于分布式顺序表的NoSQL正是为了满足这样的需求而出现的,典型代表有Google BigTable、Apache HBase和Ap
在过去的几十年间,处理器主频与内存访问速度间的差距的日益增大,使得许多程序的性能瓶颈集中在内存访问,体系结构中引入了多级高速缓存的结构(cache)来解决内存访问的瓶颈(m
随着Internet技术的飞速发展和企业信息化程度的不断提高,基于B/S的企业级Web应用系统成为信息化时代软件开发的主流。在Web应用系统开发中,采用传统的软件生成方式,不可避免
本文的研究工作包括两部分:《现代汉语语法信息词典》管理平台的设计与开发和地名库建设。 语言知识库作为自然语言处理系统必不可少的组成部分一直受到研究者重视。《现代
随着经济和社会的高速发展,我国城市发展已进入快速增长时期,城市规模不断扩大,人口密集度不断增高,遭受各种突发事件的灾害的威胁形势严峻。一旦突发事件发生,如果不能及时采取有
随着经济的快速发展,企业和政府机构对信息生成、交换、分析的能力要求越来越高,XBRL技术的发展与应用为信息供应链提供了理想的解决方案。现有的XBRL数据存储方式由于数据失真
学位
随着网络技术的发展,分布式系统出现了许多新的计算模式,其中最突出的代表是Web service、Peer-to-Peer计算和网格技术。这些新的计算模式为应用系统提供了几乎无限的计算能力
虚拟存储是现代微处理器系统必不可少的存储模式,它把内存和外存统一起来,呈现给用户一个比实际内存大的多的虚拟存储空间,而且它给不同程序之间的数据和指令提供保护(比如地址
数字版权管理(Digital Rights Management,简称DRM)伴随着近年来不断出现的版权风波问题受到广泛关注,成为一个研究热点。与此同时,多媒体教学音视频作为一类特殊的媒体,由于其公