XML集成方法的研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:xuyanfang1968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可扩展标记语言(Extensible Markup Language, XML),是一种用于对电子文件信息进行标记,使电子文件信息具有结构性的标记语言,它不仅可以对数据进行标记,而且能对数据类型进行定义,允许开发者自定义标签,同时可将标签和数据有效分离。与超文本标记语言(Hypertext Markup Language,HTML)不同的是XML侧重地不是数据的如何表示,而是更多的侧重于数据的存储和传输,于是,XML逐渐演变成了一种跨平台的数据交换格式,一种轻量级的数据存储方案,现在已发展成为web数据交换的标准。目前,XML在各个领域都得到了广泛的应用,在网络上也产生了大量的XML数据文件,然而这些数据文件并不具有统一的格式,它们的结构各异,这就给数据的分类存储和统一的数据查询带来了困难。于是,如何有效地集成这些异构的XML数据文件,将原本分离的、但内容相关的数据文件进行准确地和快速地合并,进而给用户提供一种统一的检索和服务,是海量数据管理和数据共享服务系统中面临的关键问题。同时随着XML技术的发展,XML文件越来越多的以一种中间件文件的形式被应用到关系数据库数据的集成问题上。于是,如何找到一种高效的、精确的XML集成方法开始吸引越来越多的研究人员的目光。本文提出了一种XML数据集成的方法。该方法给出了一个XML数据集成的通用框架,将XML数据集成问题分为四个小问题:目标文档DTD定义、目标对象的自动发现、重复判定和文档的集成。目标文档DTD定义,。定义了集成后的文档的格式;源文档中需要集成的目标对象的自动发现,根据目标文档DTD将源文档分解成相互独立的对象;重复判定,即需要集成的目标对象是否已存在于目标文档中;文档的集成,将不存在于目标文档的源文档中的对象添加到目标文档中。通过该框架,本文提出了两个算法:目标对象的自动发现算法AFTO,利用目标文档DTD及模式识别技术自动发现需要合并的对象;重复判定算法ODD,利用对象的元素属性之间的比较判定两个对象是否重复。
其他文献
随着Internet 的发展和普及,电子邮件也得到了广泛的应用。电子邮件在给人们带来方便的同时也产生了一个新的问题,即大量垃圾邮件的出现。垃圾邮件不仅要消耗大量的网络资源,
随着汽车市场和汽车电子技术的飞速发展,车载信息娱乐系统的构建成为人们关注的焦点。HTML5技术能加快车载信息娱乐系统的构建,缩短研发周期,降低开发成本。而如何为HTML5车
消防的重点在于预防。高层大型建筑物由于结构复杂,人员疏散逃生困难,是火灾预防的重点之一。用三维立体的形式,表现高层建筑的结构、消防设施分布、疏散通道等,比以往的高层
粒子群优化算法(ParticleSwarmoptimization)是由Kennedy和Eberhart在1995年提出的一种基于群智能(SwarmIntelligence)的演化计算技术,是在鸟群、鱼群和人类社会行为规律的启
数字图像处理技术在近20多年的时间里,迅速发展成一门独立的具有强大生命力的学科。数字图像处理技术广泛应用于工业、军事、医学等领域,而且现在对能快速自动处理海量图像数据
计算机监控系统广泛应用于各个领域,由于无线监控系统有着无法替代的优势,这几年得到了蓬勃发展。然而目前无线监控系统软件开发过程中未形成系统的框架,存在大量的重复劳动,开发
本文对数据挖掘的元数据管理及可集成进行了研究。文章阐述了采用分层的元数据管理方法构建数据挖掘的元数据管理体系结构,包含元数据源层、元数据集成/管理层和元数据发布层
目前,云计算技术已经拥有了很高的成熟度。随着云基础设施的大量增加及云计算规模不断扩大,IT资源耗电量剧增,这极大阻碍了IT行业的发展。能耗已经成为制约云计算发展的重要
本文针对“特定应用的嵌入式实时操作系统(ASOS)在工业控制领域的研究与开发”进行了深入的分析研究。随着计算机、控制、通讯、网络等技术的发展,作为工业控制数字化、智能
石油钻井投资大、风险高,其中钻具组合设计的好坏直接关系着施工的效益和成败。传统单机版的钻具组合计算机辅助设计软件,不支持群体设计,信息难于共享;而目前网络环境下的钻具组