论文部分内容阅读
由于具有良好的灵活性和可扩展性,XML已经成为了Web上信息交换和表示的主流格式和事实的标准,并且在很多领域都得到广泛和深入的应用。而现实世界中存在的数据往往是不精确的和不确定的,同时由于现实世界存在主观性,某些数据在本质上就是具有模糊性的,例如对某一事物的主观的评价。如何在XML中表示这些模糊信息以及如何对大量的模糊XML文档进行有效地管理,已经成为一个重要的研究课题。作为XML的主流结构化查询语言,XQuery查询处理的核心操作处理对象是Twig(小枝)查询—通常人们用Twig查询表示查询感兴趣的节点以及它们之间的结构关系,Twig查询处理的优劣在很大程度上决定了整个XML查询的处理效率,同时,用户的查询意图中往往包含各种逻辑,例如,必须同时满足多个查询条件(AND逻辑)、多个查询条件中满足其中的一个即可(OR逻辑)或者绝对不能包含某个条件(NOT逻辑)。目前,对模糊XML环境下含谓词的小枝查询的研究成果还较少,另一方面,已有的查询算法在I/O操作性能方面还不是很理想。针对上述情况,本文对含逻辑谓词的模糊XML复杂小枝查询方法做了深入的研究。由于现有的编码方案并不支持对模糊XML中模糊信息的表示,因此,首先对现有的扩展的Dewey编码进行模糊扩展,使得从一个节点的编码能够同时获取该节点在模糊XML文档中的结构信息和隶属度信息,为查询方法的提出奠定了编码的基础。然后,针对已有的处理含逻辑谓词的模糊XML复杂小枝查询算法较高的I/O操作代价,提出了以路径为匹配单位的整体匹配算法FATJFast算法、FA/OTJFast算法和FNTJFast算法,分别处理AND逻辑的模糊XML小枝查询、AND/OR逻辑的模糊XML小枝查询和NOT逻辑的模糊XML小枝查询,在匹配的过程中仅仅需要访问查询叶子节点,降低了I/O代价,并且以路径为匹配单位,避免了分解粒度过细所带来的大量的时间消耗。最后,通过实验对所提出的算法进行验证,实验证明,在同一查询条件下,本文所提出的整体匹配算法与已有的查询算法相比,访问节点数明显减少,整体的执行效率有显著地提高。