基于哈希表和流索引的XML过滤模型的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：joycev

【摘要】

：

XML (eXtensible Markup Language,可扩展标记语言)自1998年出现以来,已经成为互联网数据交换格式的标准。大量与之相关的应用,如消息通知系统、个人个性化信息等都需要对信

【作者】

：

夏伟建

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2012年期

【关键词】

：

XML 过滤哈希表流索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML (eXtensible Markup Language,可扩展标记语言)自1998年出现以来,已经成为互联网数据交换格式的标准。大量与之相关的应用,如消息通知系统、个人个性化信息等都需要对信息进行过滤。如何对XML的数据进行高效的过滤,已经成为近年来XML的热点研究问题之一。近些年,人们在对XML过滤的研究中,已经取得了一系列成果。其中,许多理论模型和上具,都已经很成熟。例如,XPath、自动机等有关理论已经形成了各种各样的应用机制。以XFilter的出现为代表,YFilter、lazy DFA等一系列与自动机有关的理论,被广泛应用到XML的过滤中,而各种自动机的有关模型也不断的被研究出来,这也是当前XML过滤应用所广泛使用的技术。存XML的过滤中,要考虑的是如何减少过滤时的开销,提高过滤的效率,从而追求效益的最大化,这其中,如何减少无效元素的处理,减少文档的解析量,便成为一个重要途径,本文相关的研究上作也由此而展开。减少无效元素的处理,包括两个方面,一是如何快速断定某些元素是无效元素,二是如何对这些无效元素进行处理。本文通过引入哈希表,来对无效元素进行判断,通过引入流索引,来对无效元素进行跳过,从而提高过滤的效率。哈希表存储了元素的位置信息,可以快速判断文档中任意两个元素的层次关系,以便判断元素是否为无效元素。过滤时,祖先后代关系“//”的处理往往需要消耗大量时间,因为如果有元素可以匹配该关系,那么无论该元素存文档的何种深度,都满足过滤条件,而对该元素判断的过程中,需要大量的压入堆栈操作,所耗用的时间和空间太大。存本文中,通过引入哈希表,存遇到祖先后代关系“//”,可以不必先将其压入堆栈,而是通过查找哈希表,看需要过滤的元素是否满足过滤条件,如果是,压入堆栈进行操作,如果否,则结合流索引进行跳过。流索引标记了元素的开始位置和结束位置,当遇到无效元素时,可以通过结束标记,对无效元素及其子孙元素进行直接跳过,从而避免无效元素的处理,从而提高解析效率。实验表明,当输入的文档深度较大和文档中的祖先后代关系较多时,本文中的方法要优于传统XML过滤方法的效率。

其他文献

半监督聚类算法在人脸检测中的应用

人脸检测技术在人们日常生活中越来越受到关注，特别是在学术研究、国防等领域，每年正以突飞猛进的速度发展壮大。人脸检测是一项综合了多学科、多领域、多层次的高新复合型技术

学位

人脸检测聚类半监督策略SKDK均值算法连续AdaBoost

基于最外轮廓的步态识别研究

随着人们对安全问题的重视,监控系统变得无所不在。利用监控系统信息进行人的身份识别变得非常迫切。步态识别,即利用人走路的姿势进行身份识别,是一种新兴的生物特征识别技

学位

步态识别最外轮廓特征机器学习人脸识别混合融合

基于实例的异构数据模式匹配方法研究与实现

近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数

学位

数据模式匹配非透明条件互信息

面向Deep Web数据集成的数据融合问题研究

随着互联网技术的进步和发展,Web包含了越来越多的丰富信息,从而使Web成为了一个巨大的、分布广泛的、全球化的在线信息源。尤其是近些年来,各式各样的大型数据库逐渐建立起

学位

Deep Web数据集成Deep Web数据源质量评估数据融合

基于光谱分析与深度信息的人脸活体检测

随着人脸识别技术的日趋成熟,其商业化应用也愈加广泛。不过,随着该技术的不断应用,也出现了十分严重的安全问题。现在,几乎所有的人脸识别系统均无法甄别人脸的真假,也就是

学位

人脸活体检测高光谱波段选择SVM深度信息

基于脚本代码和局部数据匹配的网页抽取研究

随着互联网的高速发展,Internet在我们日常的生活中扮演越来越重要的角色,成为我们生活和工作中必不可少的一部分。网络的高速发展带来了网络信息的爆炸式增长,而网络用户对

学位

网页信息抽取脚本代码树编辑距离包装器

基于有线链路的Ad Hoc网络路由协议性能评估方法

移动Ad Hoc网络的研究已成为网络领域中的重要研究方向,相关路由协议的设计和性能研究工作逐渐成为热点,一个能够对Ad Hoc网络路由协议进行全面性分析的性能评估方法显得越来

学位

移动Ad Hoc网络有线模拟无线数据采集探针Vx Works操作系统数据采集与评估OPNET

面向关联规则挖掘的隐私保护算法研究

由于现代计算机硬件技术、互联网技术以及多媒体信息技术的高速发展，人们所拥有的数据量已经达到了前所未有的规模，而数据挖掘技术的出现使得对大量的库存数据进行有针对性地处

学位

数据挖掘关联规则隐私保护时间效率

Web日志挖掘中负关联规则的研究

Internet的用户行为分析主要是基于Web数据挖掘,Web数据挖掘是使用数据挖掘或机器学习的方法从Web文档中抽取出用户感兴趣的潜在有用模式和信息。Web数据挖掘分为Web内容挖掘

学位

用户行为分析Web使用挖掘Apriori模式树提升度

无线传感网络中基于移动Sink的路由算法研究

无线传感器网络(Wireless Sensor Networks, WSNs)起源于军事领域,随着因特网技术、嵌入式计算技术、传感器技术、微机电技术、现代网络及分布式信息处理技术、无线通信技术

学位

无线传感网络路由算法能量空洞移动Sink能量均衡分簇

基于哈希表和流索引的XML过滤模型的研究

与本文相关的学术论文