论文部分内容阅读
随着信息技术的发展,人们对于XML数据的转换、集成和共享的需求越来越多,异构XML文档的匹配研究成为新的研究热点。虽现已存在一些相对成熟的针对结构化数据(如数据库数据)的匹配方法,异构XML文档标签的匹配方法可以借鉴这些方法中的思想,但同时还需要结合半结构化数据自身的特点,探寻更适合于半结构化数据自身特点的匹配算法。 本文详细地阐述了现有模式匹配方法的分类、特征和适用范围。并在针对已有的异构XML文档标签匹配算法基础上,分析其中存在的一些问题,提出一种基于XML schema的匹配算法。该算法利用宽松标识方法,将XML schema所包含的丰富的结构信息和语义信息,结合基于上下文的结构匹配算法来共同完成匹配任务。实验验证该算法能够有效识别XML文档中同名异义、异名同义现象,对异构XML文档标签的匹配起到较好的效果。 众所周知,从一个角度或者一个层面不可能完全表征数据,而要从多层面和多角度去发现数据间的关联,这是一切匹配算法的一般原理。为了增加匹配的精度,为了充分进行数据间的匹配,本文的第四章引入基于实例的匹配算法,研究了XML文档在既能够获得实例,又包含XML Schema情况下的匹配问题。该算法主要讨论了利用实例的各种特征,提出了抽取数据分布特征向量结合数据属性特征向量来共同描述数据特征的方法,然后将得到的组合向量作为神经网络的输入,利用神经网络来计算叶子标签之间的相似性,最后,利用这个结果结合第三章提出的匹配算法,共同完成基于实例、同时能够获得语义和结构信息的XML文档标签的匹配研究。 文章通过实例对上述两种算法的匹配过程做了详细描述,指出了影响匹配过程的关键问题,并给出了算法的匹配结果,证明了所给算法的正确性和有效性。由于针对XML文档的匹配研究尚处于发展阶段,还有很多工作要做。因此文章最后对今后这项研究的发展趋势进行了探讨。