论文部分内容阅读
随着计算机和网络技术的发展,XML因其具有自描述性、可扩展性等特点,逐渐成为各领域描述数据的标准。然而由于应用领域的不断扩展,产生了大量异构的XML数据。为了屏蔽各数据源在结构、运行环境上的差异,以XML作为标准数据描述的中间语言,将各种异构源数据转换成统一的XML标准描述形式,可以方便的实现数据的共享。传统的XML转换基本都是通过全手工编写转换程序,需要相当的编程技能,尤其当数据量很大且文档信息经常改变时,手工操作非常耗时且容易出现错误。因此,研究XML自动转换技术具有十分重要的意义。本文对当前主要的XML转换技术进行了比较和分析,提出了一种基于模式匹配的XML自动转换技术。本文的工作主要包括以下几个方面:(1)分析了异构域XML转换方法的研究状况,对模式匹配技术作了详细的阐述,并提出了基于模式匹配实现XML转换的总体设计思路。(2)研究了XML Schema建模方法,将可视化技术引入到XML Schema的建模过程中,通过可视化界面使得用户更容易理解XML Schema的结构。在数据处理过程中,采用有向标记图来表示)XML Schema文档,给出了相关规范和定义。(3)提出XML Schema匹配算法,在模式匹配过程中,首先通过名称规范化处理,结合语义相似度和编辑距离计算元素名称相似度;其次根据元素和属性的数据类型及上下文关系计算结构相似度;最后通过用户验证、调整,得到两个模式之间准确的匹配关系。该算法充分考虑了语法和语义信息、结构信息,大大提高了匹配质量。实验表明,该算法具有较高的查准率和查全率。(4)提出了一组XML Schema转换函数,解决模式之间语义和结构等冲突。定义了映射关系描述规则,将模式元素之间的匹配关系和转换函数以XML描述形式保存到映射文件中,它封装了从一个模式实例到另一个模式实例转换所有必需的信息和转换操作。(5)通过XSLT引擎将映射文件转换成XSLT脚本,执行XML文档的转换。异构域XML自动转换技术的研究是一个新的研究领域,本文对PLC图编程领域的XML自动转换技术作了一些探讨并有初步的实现成果,为数据的跨平台交互提供了条件。这些理论成果可以为以后的其他领域的研发提供一些结构模型、运行及架构上的理论基础。