论文部分内容阅读
随着网络技术和信息技术的飞速发展,网上数据交换也越来越频繁。XML因具有可扩展性、跨平台性、自描述性等优点,逐步成为网上信息表达和数据交换的事实标准。但是在享受XML带来便捷的同时,由于XML的标签可以自由定制,数据交换面临模式不统一的问题,如何匹配不同模式文档中的信息,已成为数据交换领域亟待解决的问题。
本文从研究模式匹配入手,分析现有模式匹配方法的优缺点,重点研究了基于模式的匹配方法。在综合已有模式匹配方法的基础上,结合XML文档数据和Schema的特点,本文提出了一种基于XML Schema的模式匹配方法。首先,结合XML的最新变化,在计算元素的语义相似时,采用提取元素的特征信息来计算其相似度,而非单纯的字符串匹配。其次,本文重点研究了XML Schema的数据类型,鉴于XML Schema数据类型的特殊性,打破传统匹配方法把数据类型当作约束信息对待的思想,着重研究了复合数据类型之间的相似,并提出一种计算复合数据类型问相似的算法——CDTS(Compound DataType Similarity)。最后,在研究元素结构相似性时,本文不仅考虑了孩子节点、祖先节点、兄弟节点的影响,同时还考虑了这种特性的传播特点。本文借鉴Similarity Flooding算法思想,提出一种新的结构相似算法——SSF(Structural Similarity Flooding)计算元素的结构相似度。
最后,本文从实践角度出发,通过实验和对比分析,验证了算法的高效性。并且通过一个实际的例子,应用本文算法介绍了转换XML文档的整个流程。