论文部分内容阅读
随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。为了更好地利用这些资源,人们迫切需要解决这些异构数据源的集成问题。异构数据集成的任务就是通过给用户提供一个统一的应用平台,从而屏蔽底层数据源的不同,使得用户可以无缝而且灵活的访问这些异构数据源。本文研究了异构数据集成的相关理论和技术,对现有数据集成方法进行分析,结合Wrapper/Mediator体系结构和数据仓库技术,提出了一种扩展的异构数据集成与分析体系结构HDQAS(Heterogeneous Data Query and Analyzing System)。在该体系结构中,采用XML技术解决语法异构问题;利用本体描述精确语义的优势,使用本体描述语言OWL描述全局本体和局部本体,全局本体作为局部本体的统一视图,局部本体对特定数据源进行本体描述,通过全局本体到局部本体的映射,解决数据源的语义异构问题;采用Web Services技术屏蔽数据源的平台差异,对各类数据源,尤其是对Web网页的抽取、封装和远程调用,实现了更大范围内的数据集成;利用数据仓库技术和OLAP技术对集成的结果做进一步分析,为用户提供决策支持。在HDQAS框架下,实现了一个异构数据集成原型系统,在该原型系统中,客户端通过全局本体的导入,提供给用户一个全局查询界面,并实现了信息检索、联机分析等功能。服务器端实现数据源注册、数据源选择、包装器维护以及用户管理等功能。本文的主要研究工作如下:1.设计出了异构数据集成系统体系框架,详细设计了其中每一个模块的功能,并对原型系统的关键模块进行了实现。2.将各个异构数据源封装为Web Services,使原型系统具有松耦合、灵活、易扩展的良好特性,能真正实现异构数据源的无缝集成。3.提出了利用全局本体/局部本体映射的集成方案,以解决数据源的语义异构。4.将集成结果物化到数据仓库中,对集成结果进行综合分析,为用户提供决策支持,实现了数据的更大的利用价值。