论文部分内容阅读
可扩展标记语言(Extensible Markup Language, XML),是一种用于对电子文件信息进行标记,使电子文件信息具有结构性的标记语言,它不仅可以对数据进行标记,而且能对数据类型进行定义,允许开发者自定义标签,同时可将标签和数据有效分离。与超文本标记语言(Hypertext Markup Language,HTML)不同的是XML侧重地不是数据的如何表示,而是更多的侧重于数据的存储和传输,于是,XML逐渐演变成了一种跨平台的数据交换格式,一种轻量级的数据存储方案,现在已发展成为web数据交换的标准。目前,XML在各个领域都得到了广泛的应用,在网络上也产生了大量的XML数据文件,然而这些数据文件并不具有统一的格式,它们的结构各异,这就给数据的分类存储和统一的数据查询带来了困难。于是,如何有效地集成这些异构的XML数据文件,将原本分离的、但内容相关的数据文件进行准确地和快速地合并,进而给用户提供一种统一的检索和服务,是海量数据管理和数据共享服务系统中面临的关键问题。同时随着XML技术的发展,XML文件越来越多的以一种中间件文件的形式被应用到关系数据库数据的集成问题上。于是,如何找到一种高效的、精确的XML集成方法开始吸引越来越多的研究人员的目光。本文提出了一种XML数据集成的方法。该方法给出了一个XML数据集成的通用框架,将XML数据集成问题分为四个小问题:目标文档DTD定义、目标对象的自动发现、重复判定和文档的集成。目标文档DTD定义,。定义了集成后的文档的格式;源文档中需要集成的目标对象的自动发现,根据目标文档DTD将源文档分解成相互独立的对象;重复判定,即需要集成的目标对象是否已存在于目标文档中;文档的集成,将不存在于目标文档的源文档中的对象添加到目标文档中。通过该框架,本文提出了两个算法:目标对象的自动发现算法AFTO,利用目标文档DTD及模式识别技术自动发现需要合并的对象;重复判定算法ODD,利用对象的元素属性之间的比较判定两个对象是否重复。