XML模式匹配:整体连接算法TurboStack

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:wn208001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  含谓词的XPath查询为小枝查询(twig query),它是XQuery最基本的查询模式。小枝查询算法有两大类:小枝分解和整体小枝连接,其中TwigStack系列算法处理小枝查询的效率是最优的,但其缺点在于不支持Twig Query中含“OR”以及通配符“*”的查询;在大型商业数据库管理系统中,TurboXPath是DB2用于处理小枝查询的基本算法,它对XPath的支持较全面,但由于TurboXPath是针对XML数据流查询处理设计的,因而对数据库中Native存储的XML数据的查询处理效率较低;针对已有方法的不足,设计了一种纯XML存储方式,以DDE编码为基础,提出了TurboStack算法,并通过大量实验验证了该方法的有效性。
其他文献
当前很多的数据管理应用都需要从多个数据源集成数据,每个数据源都会提供一组值,并且不同的数据源常常提供相互冲突的数据值。为了提供给用户高质量的数据值,关键是数据集成系统能够解决数据冲突问题,提取出正确的数据值。文中对已有的真值发现算法进行了分析与总结,通过考虑处理同一个值的不同表现形式和改进的选票算法,作者对现有方法给出了改进,改进后的方法可以更有效地在众多冲突数据中找出正确的数据值。
MapReduce是一种应用广泛的并行编程模型,Hadoop是MapReduce的开源实现。为了满足不同类型的MapReduce作业对任务分配策略的特殊需求,在深入分析Hadoop固有任务分配机制的基础上,设计并实现了一种可扩展的任务分配模块,用户可以根据作业的特性实现并加载自定义的任务分配器。在可扩展的任务分配模块的基础上实现了两个典型的任务分配器,实验结果表明使用可扩展任务分配模块并加载适用于
在对海量数据的查询执行中,高效地存储中间结果是提高查询效率的重要手段之一。现有的列存储系统大都主要关注于如何选择合理的物化时机来提高查询效率,而忽略了对中间结果的有效管理。首先,为了减小查询执行过程中中间结果的大小,提出了一种自适应划分字对齐混合位向量压缩方法,运用该方法存储中间结果,可大大减少传递块的数量,提高缓冲区利用率;其次,实现了直接对传递块上的压缩位向量进行逻辑运算的方法,有效地提高了多
贝叶斯网(BN)作为一种重要的概率图模型,是统计型不确定性知识表示和推理的基本框架.如何从海量数据中学习BN,是目前云计算环境下海量数据中不确定性知识推理及相关应用的基础和关键.本文利用Hadoop平台,设计并实现了CloudBN这一基于云计算的概率图模型学习系统.CloudBN以BN结构的学习为核心,首先将海量数据存储于HBase中,然后将传统的BN打分搜索学习方法扩展到并行环境,基于MapRe
如何快速有效地度量节点的重要性以支持可视化布局已成为信息网络研究中亟待解决的问题.本文提出基于PageRank思想在可视化空间中快速度量节点重要性的SpaceScore方法,并基于合作者网络真实数据集(ACM数据集)进行具体实现,实验对数据集中17431个作者进行评分,总耗时0.289s,且时间开销随数据集规模的增加呈线性方式增长;同时,通过查阅分数排名前20位作者的学术贡献,可以看出SpaceS
本文设计了一个云环境下的基于MapReduce的在线聚集系统,相对于传统的批处理模式,在线聚集能在处理过程中不断地返回近似结果,使得用户可以提前终止处理,从而在云平台即用即付的收费模式下节省大量计算成本。
使用索引可以提高管理文本信息的效率,但传统的搜索引擎返回结果为文本全文,表示该单词包含在文本文件中,其语义较为模糊,从而降低了信息管理、信息提取的有效性。针对文本特定上下文区域进行检索,可以获得关健词相关的语义环境,从而更有效地管理文本信息。介绍了一种基于上下文索引的文本局部匹配搜索引擎,该引擎包含上下文提取语言、上下文索引、匹配算法等模块,可以在文本的特定范围内提取模式信息,同时支持索引的随机访
随着NoSQL运动的兴起和在社交网络等热门应用中产生了越来越多有价值的图数据,图数据库开始成为重要研究趋势.将信息检索领域的关键词搜索用于图数据库的查询,能让用户不必掌握复杂的查询语言和数据库模式就能查找结构化信息.介绍了一个高效的图数据库关键词搜索引擎FindGrape.该系统通过构建一种新颖的基于磁盘的分布式索引,利用图中局部拓扑信息来实现在搜索前裁剪匹配节点,从而显著提高搜索效率,特别是对大
当前深层网络数据库的数量以惊人的速度增长。查询表单是访问深层网络数据的入口,由于深层网络数据库中的数据隐藏在查询表单之后,难以获取其信息,造成大量信息资源的浪费。为集成深层网络数据,向用户查询提供方便,首要问题是理解查询表单。为此,在统计分析的基础上,提出了一种提取表单信息的方法。通过观察大量含有查询表单的页面,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但通过表单语法引
由于人工输入的商品容易存在信息错误、信息缺失以及主观上描述的差异,无法使电子商务数据满足传统实体识别算法的要求。本文设计并实现了一个基于电子商务的实体分类系统,提出了针对电子商务数据的数据清洗、词性标注、实体识别等算法,并集成了用户行为反馈技术以不断优化实体分类结果。系统采用真实商品数据做实验,验证了系统的有效性。