论文部分内容阅读
随着Web技术及其应用的快速发展,XML已经成为万维网上信息表示和数据交换的一个重要标准,XML在电子商务、电子数据交换、科学数据表示、数据建模与分析和搜索引擎等领域有着广泛的应用。发布/订阅系统具有异步性、多点通信的特点,使信息的发布者和订阅者在空间、时间和控制流这三个方面都被完全的解耦,能够很好地满足大规模的、高度动态的、基于Internet的分布式计算机环境的新需要。到目前为止,在Web上已经积累了大量的XML文档数据并且快速地更新,XML文档发布/订阅系统可以根据不同的用户需求,即时的将XML文档发送给对其感兴趣的用户。尽管Y-Filter的查询前缀共享思想有效地提高了查询处理的效率,却没有考虑不确定有限自动机查询路径结构匹配的过程栈中的状态节点数量随栈的深度有着指数级的增长,因此,本文对路径结构匹配过程中栈的状态优化问题进行深入研究。本文根据XML文档和查询的特点设计了基于深度优先的堆栈优化算法,并利用回溯和跳转操作减少了不必要的元素匹配操作。为了分析基于深度优先的堆栈优化算法的性能,本文设计了相应的实验,并针对于不同的参数变化分析了系统的性能。实验结果表明,本文提出的基于深度优先的堆栈优化算法有效的减少了查询结构匹配过程栈中状态节点的数量,·并且在响应时间上是可以接受的。此外,由于XML查询匹配的结构匹配阶段和谓词匹配阶段在时间上的不相关性,本文将流水技术用于XML文档发布/订阅系统中,并根据单路径查询和Twig查询结构上的区别,将使用包含不同流水段的流水线对其进行处理。流水技术的使用提高了XML文档发布/订阅系统的处理效率。本文为单路径查询和Twig查询分别进行了相关的实验,实验结果表明,基于流水技术的单路径查询和Twig查询的匹配算法分别节省了25%和50%的时间。