基于有序对的XML小枝模式查询处理研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:feixubushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,半结构化的数据在信息交换中越来越重要,如何准确、高效地查询XML数据已经成为研究的热点问题。XML文档可以用一棵嵌套的文档树来表示,查询路径也可以表示成一棵查询树即小枝模式,因此XML数据的查询就是从XML文档树中查找出所有满足小枝模式的XML数据片段,这个过程就叫做小枝模式查询。近年来,研究工作者提出了很多匹配小枝模式的查询算法:如TwigStack算法以及最近提出的TwigList和TwigNM算法等。小枝模式中包含有父子边和祖先后裔边两种,这些算法对仅含祖先后裔边的小枝模式查询是很有效的,但是当小枝模式中仅含父子边或同时含有祖先后裔和父子边时,这些算法仍可能产生大量的中间结果,尤其是输入和输出的规模很大时。针对目前算法存在的不足之处,通过结合ViST算法中利用字符串匹配查询从而不需要结构连接的思想,以及Twig2Stack算法中自底向上和不需合并的思想,本文提出了两种基于有序对的小枝模式匹配算法PCTwig和OPTwig,所做的主要工作如下:(1)提出了一种基于有序对的新思路,通过有序对的建立更好地将结点与结点连接起来。利用查询树和文档树中有序对的匹配来进行查询。(2)针对小枝模式中的三种结点:根结点、中间结点和叶子结点,提出三种不同的匹配方法。又根据小枝模式中结点间的两种关系:父子关系和祖先后裔关系,构造了MatchPC和MatchAD函数。(3)提出了两种新算法PCTwig和OPTwig,对文档树和查询树的存储结构进行了规定。对查询树进行自底向上的存储,在碰到分支结点时,进行标记。这样可以在查询过程中对分支进行判断,从而避免无用结点的产生。(4)在实验系统上把两种新算法与经典算法TwigStack和TwigStackList算法进行了比较,证明了PCTwig和OPTwig算法的有效性。
其他文献
近年来,突破传统计算领域种种束缚的量子计算,越来越受到人们关注。一方面,随着电子器件越做越小,其功能开始受到量子效应的干扰,致使传统计算机的能力无法继续保持如Moore定律描
判定表是分析和表达决策问题的有利工具,能够将复杂的问题按照各种可能的情况全部列举出来,简明且严密。在软件测试领域,将判定表结合上因果图可以构造出一个有效的软件测试方法
随着分布式计算环境的出现和分布式应用的不断发展,发布订阅作为一种新的通信模型为分布式应用提供了松散耦合的协同工作方式。这种通信模型为通讯的各方提供了时间上、空间上
随着信息技术的快速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘技术就是为顺应这种需要发展起来的数据处理技术。分类算法是数据
Z. Pawlak提出的经典粗糙集理论是基于由属性诱导的不可分辨关系来进行数据分析的,数据模型中只包含符号型属性。而当前实际的信息系统中存在既包含符号型属性,也包含连续数
随着计算机处理能力的增强和视频采集设备的普及,机器视觉在人机交瓦中表现出良好的应用前景。通过对人体姿态,动作,面部表情等的捕捉和分析,可以在最自然的状态下获得大量的人机
本文结合现代物流业的发展现状提出了一种新的适合物流中心发展的绩效考核理念和方法,着重研究了在ARIS平台和考核体系的支持下,如何对物流中心的业务现状进行建模、仿真,并依据
随着高校信息化的开展,信息服务已成为高校教学管理和实施现代化教学的重要手段,在高校中扮演着越来越重要的角色。但是,高校信息化的开展同时也带来了信息资源的膨胀,使信息服务
蚁群算法是一种模拟昆虫王国中蚂蚁群体智能行为的仿生优化算法。算法采用正反馈并行自催化的机制,具有分布式计算机制、易于与其它仿生优化算法相融合的特点。目前,蚁群算法
面向方面编程是在面向对象编程的基础上,通过引入一个“方面”的概念而产生一种基于关注点分离的新技术,系统的横切关注点能够分离出来并单独进行设计。面向方面的方法在处理横