基于哈希表和流索引的XML过滤模型的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:joycev
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML (eXtensible Markup Language,可扩展标记语言)自1998年出现以来,已经成为互联网数据交换格式的标准。大量与之相关的应用,如消息通知系统、个人个性化信息等都需要对信息进行过滤。如何对XML的数据进行高效的过滤,已经成为近年来XML的热点研究问题之一。近些年,人们在对XML过滤的研究中,已经取得了一系列成果。其中,许多理论模型和上具,都已经很成熟。例如,XPath、自动机等有关理论已经形成了各种各样的应用机制。以XFilter的出现为代表,YFilter、lazy DFA等一系列与自动机有关的理论,被广泛应用到XML的过滤中,而各种自动机的有关模型也不断的被研究出来,这也是当前XML过滤应用所广泛使用的技术。存XML的过滤中,要考虑的是如何减少过滤时的开销,提高过滤的效率,从而追求效益的最大化,这其中,如何减少无效元素的处理,减少文档的解析量,便成为一个重要途径,本文相关的研究上作也由此而展开。减少无效元素的处理,包括两个方面,一是如何快速断定某些元素是无效元素,二是如何对这些无效元素进行处理。本文通过引入哈希表,来对无效元素进行判断,通过引入流索引,来对无效元素进行跳过,从而提高过滤的效率。哈希表存储了元素的位置信息,可以快速判断文档中任意两个元素的层次关系,以便判断元素是否为无效元素。过滤时,祖先后代关系“//”的处理往往需要消耗大量时间,因为如果有元素可以匹配该关系,那么无论该元素存文档的何种深度,都满足过滤条件,而对该元素判断的过程中,需要大量的压入堆栈操作,所耗用的时间和空间太大。存本文中,通过引入哈希表,存遇到祖先后代关系“//”,可以不必先将其压入堆栈,而是通过查找哈希表,看需要过滤的元素是否满足过滤条件,如果是,压入堆栈进行操作,如果否,则结合流索引进行跳过。流索引标记了元素的开始位置和结束位置,当遇到无效元素时,可以通过结束标记,对无效元素及其子孙元素进行直接跳过,从而避免无效元素的处理,从而提高解析效率。实验表明,当输入的文档深度较大和文档中的祖先后代关系较多时,本文中的方法要优于传统XML过滤方法的效率。
其他文献
人脸检测技术在人们日常生活中越来越受到关注,特别是在学术研究、国防等领域,每年正以突飞猛进的速度发展壮大。人脸检测是一项综合了多学科、多领域、多层次的高新复合型技术
随着人们对安全问题的重视,监控系统变得无所不在。利用监控系统信息进行人的身份识别变得非常迫切。步态识别,即利用人走路的姿势进行身份识别,是一种新兴的生物特征识别技
近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数
随着互联网技术的进步和发展,Web包含了越来越多的丰富信息,从而使Web成为了一个巨大的、分布广泛的、全球化的在线信息源。尤其是近些年来,各式各样的大型数据库逐渐建立起
随着人脸识别技术的日趋成熟,其商业化应用也愈加广泛。不过,随着该技术的不断应用,也出现了十分严重的安全问题。现在,几乎所有的人脸识别系统均无法甄别人脸的真假,也就是
随着互联网的高速发展,Internet在我们日常的生活中扮演越来越重要的角色,成为我们生活和工作中必不可少的一部分。网络的高速发展带来了网络信息的爆炸式增长,而网络用户对
移动Ad Hoc网络的研究已成为网络领域中的重要研究方向,相关路由协议的设计和性能研究工作逐渐成为热点,一个能够对Ad Hoc网络路由协议进行全面性分析的性能评估方法显得越来
由于现代计算机硬件技术、互联网技术以及多媒体信息技术的高速发展,人们所拥有的数据量已经达到了前所未有的规模,而数据挖掘技术的出现使得对大量的库存数据进行有针对性地处
Internet的用户行为分析主要是基于Web数据挖掘,Web数据挖掘是使用数据挖掘或机器学习的方法从Web文档中抽取出用户感兴趣的潜在有用模式和信息。Web数据挖掘分为Web内容挖掘
无线传感器网络(Wireless Sensor Networks, WSNs)起源于军事领域,随着因特网技术、嵌入式计算技术、传感器技术、微机电技术、现代网络及分布式信息处理技术、无线通信技术