TJDirect:一种基于IFED编码的XML文档小枝模式匹配算法

来源 :山西大学 | 被引量 : 0次 | 上传用户:liu605199097
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML已成为Web上数据表示、集成和交换的标准,它的格式简单、自我描述能力强,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近年来,XML在各个领域得到了广泛的使用,Web上已经涌现了大量的XML数据。如何对XML文档进行有效地查询成为一个重要的研究课题。XML文档的结构查询通常被转化为两个节点列表之间的结构连接操作。结构连接主要有两种思想:一种是路径分解法,将查询的路径表达式分解成多个简单路径表达式,进行匹配,然后将结果连接起来。这种方法不可避免的要产生无用的中间结果。另一种是小枝模式匹配方法,将查询表达式用树的形式建模,称为“小枝模式”(twig pattern),再将小枝模式到XML文档树中进行匹配,这种方法使得算法的I/O代价、CPU时间复杂度和空间复杂度降低,提高了查询的效率。最近提出的基于ExtendedDewey编码的小枝模式匹配算法——TJfast能较有效地处理XML文档查询,但是ExtendedDewey编码不支持动态插入,并且TJfast算法的执行效率有待进一步提高。本文针对以上两个不足进行改进,主要工作如下:(1)提出了IFED(Insert-Friendly ExtendedDewey)编码方法,它从ExtendedDewey编码的基础上改进而来,既支持有效的查询,又支持动态插入。(2)TJfast算法的I/O代价和CPU时间复杂度与n个输入列表的大小和最后匹配结果大小的总和线性相关,但是,输入列表中有些不参与连接的节点是可以被跳过的。本文提出了TJDirect算法,它采用一种更为灵活的小枝模式匹配方法,跳过了一些不参与连接的节点,提高了算法的执行效率,并且算法中不再用集合保存匹配的节点,使得空间复杂度降低。(3)通过实验比较了基于IFED编码的TJDirect算法和基于IFED编码的TJfast算法的执行时间,结果显示TJDirect算法的执行效率较高。(4)为XML文档编码,考察IFED编码的存储空间超出ExtendedDewey编码的比值,实验证明IFED编码的存储空间不是很大。
其他文献
数据流作为一种新兴的数据管理技术,已经被广泛应用于股票交易、网络流量监控、网络安全监控、实时监控、传感器网络等许多领域。数据流数据是以一种动态的流动的形式存在。数
伴随着遗传算法应用的深入开展,由于遗传算法有着其他优化算法不可比拟的优点,因此,遗传算法在优化计算中得到了广泛的应用,将遗传算法用于解决各种实际优化问题后,人们发现
随着信息技术的飞速发展及硬件水平的不断提高,移动设备的使用数量呈快速增长趋势,手机和个人数字助理(PDA)等手持移动设备在当今市场中更是占主导支配地位。另一方面,人们对
互联网是现代社会最重要的信息基础设施之一,它已成为人们生活中获取信息、发布信息、相互交流的平台。传统互联网以文本为主要业务,然而近年来随着宽带网络和下一代网络技术的
时空数据库是存储、管理随时间变化,其空间位置或范围也发生变化的时空对象的数据库系统,时空索引技术是时空数据库管理系统的关键技术之一。时空索引技术是空间索引技术和时间
近年来,随着无线移动通信和移动终端技术的高速发展,Ad Hoc网络不仅在军事领域应用广泛,在城市领域也得到了广泛应用。Ad Hoc网络有着许多独有的特点:不需要固定的基础设施,不需要
随着航天技术的飞速发展,合成孔径雷达(SAR)的应用越来越广泛,SAR图像的分析处理也备受关注。本文针对SAR图像处理中图像去噪与边缘检测之间的矛盾,对SAR图像去噪及边缘检测的方
入侵检测是继“防火墙”、“数据加密”等传统安全防护措施之后又一道安全闸门。入侵检测作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时防护,能够
在图像的采集、传输、处理、记录等过程,各个相关技术和环节都会影响图像质量。可见,图像质量评价的研究不仅有重要的理论价值,而且有广泛的应用需求。 本文介绍了图像信息的
近年来,随着Internet技术的发展,远程教育成为网络研究与应用的热点之一,并成为现代教育的有力补充,在一些发达国家已经得到蓬勃发展,非常适合个性化学习。网络教学系统技术也随之