论文部分内容阅读
随着Web的迅猛发展,因特网上的资源越来越丰富,已经成为一个巨大的全球化信息仓库。Web上的资源不仅包括传统的有严格数据模型的数据库,如关系数据库和面向对象的数据库,而且还包括无结构和半结构的数据,如大量的HTML文档、XML文档和文本数据。这些分布在各处的数据资源,在其设计阶段,主要是为了满足各自的业务需要而形成的,由于软硬件平台及数据模型的不同而成为了异构数据。异构数据互相之间难以集成和共享,使各数据源间的互操作变得困难,无法实现信息的共享和有效利用,从而成为“信息孤岛”。为了更好地利用网络上浩如烟海的信息,人们迫切需要集成这些地理分布、管理自治、模式异构的数据,因此异构数据集成问题吸引了众多关注。在本文中,先全面地分析了现有的数据集成方式,异构数据集成的相关理论和技术。然后指出了当前异构数据集成的主要问题是语义异构问题。在此基础上提出了一种基于本体和XML的异构数据集成系统模型,用来解决语义异构问题。设计了基于本体和XML的异构数据集成模型,并对模型中的关键模块进行探讨。本体的引入是为了解决异构数据集成中的语义异构。本文的研究主要有以下几点:(1)探讨了异构数据集成中的相关理论和技术。分析了现有的数据集成方法,指出了当前的数据集成中急需解决语义异构。(2)通过对已有的数据集成系统体系结构的研究,结合XML技术、本体技术和Web Services技术,提出了一种基于本体和XML的异构数据集成模型。对此模型中的功能模块给出了详细的描述,并对关键模块进行了测试。(3)采用XML作为中间语言,将各局部数据源数据转化为XML数据模式进行集成,从XML Schema上构建局部本体,从而屏蔽底层数据源的语法的异构性。(4)利用本体描述领域概念的优势,采用本体描述语言OWL构建全局本体和局部本体,同时定义了全局本体和局部本体的映射,局部本体和数据源的映射规则,解决数据集成中存在的语义异构问题。(5)将各个异构数据源包装器封装为Web Services,使系统具有松耦合、灵活、易扩展的良好特性,能真正实现异构数据源的无缝集成。(6)采用XQuery作为全局模式上的查询语言,容易实现对XML数据的查询。对针对全局模式(全局本体)的全局查询语句进行分解,分解为针对局部本体术语表示的子查询语句。