【摘 要】
:
随着各组织间数据交换的与日俱增,作为Web上数据存储和交换格式事实标准的XML变得越来越重要,但是不正确数据、不一致数据、不精确数据等XML中的劣质数据给XML上的有效查询处
论文部分内容阅读
随着各组织间数据交换的与日俱增,作为Web上数据存储和交换格式事实标准的XML变得越来越重要,但是不正确数据、不一致数据、不精确数据等XML中的劣质数据给XML上的有效查询处理带来了挑战。研究在包含劣质数据的XML上直接进行查询,对XML的研究与推广具有重要意义。由于twig查询具有重要的研究意义,针对劣质标签,本文研究标签劣质XML数据上twig查询的处理算法及其优化算法。利用XML的内容与结构信息,本文提出了标签劣质XML数据上的查询处理算法。为了对文档实施必要的预处理以支持查询处理算法的高效执行,本文将整个查询处理算法划分为线下的文档处理和线上的查询处理。本文的算法首先利用文档和查询中标签的内容以及文档中各标签间的父子等关系求得每个标签的拼写相近标签、松弛标签、同义标签等相似标签。然后,利用这些相似标签,定义了相似查询及其相似距离,并定义了支持查询处理高效执行的三种操作。利用这三种操作,采用以空间换时间的方式,提出了在XML文档中求出与原查询相似的所有查询结果,并按照与原查询相似程度由大到小的顺序返回结果的高效算法。通过实验验证了该查询算法的有效性和效率。针对上述方法中存在的不够高效之处,本文提出了上述算法的两点优化思想,以及它们的实现方法——文档处理优化和查询处理优化。文档处理优化利用文档处理程序遍历XML文档中所有路径的性质,提前生成文档中所有标签的串联信息;利用该串联信息,查询处理优化对查询中所有标签间的串联关系进行判断,以尽早过滤掉不可能产生结果的标签。本文用了大量的实验验证了这两个优化方法的效率,并对这些实验的结果做了深入的分析。
其他文献
天然气是目前主要的民用能源,其输送的可靠性直接影响着广大人民的切身利益。压缩机组作为天然气输送系统动力环节,其运行的可靠程度以及操作人员技术水平直接影响着整个系统的
网络基础设施的建设和视频编码技术的发展,催生了一系列的视频应用,包括视频电话、网络视频点播、高清电视广播等等。为了使视频编码的码流更好地适应各种网络环境和用户终端
信息时代的来临,使网络来到我们每个人的身边。而病毒、蠕虫、木马等恶意代码,也随着网络经济的蓬勃而迅猛发展。网络安全和人身安全对网民而言一样重要。恶意代码检测系统使
随着服务系统在现代服务业中的广泛应用,服务质量问题引起了人们越来越多地关注,服务质量监控与评价方法成了服务学研究的一个重点内容。服务质量功能展开(SQFD)是覆盖服务系
网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,
随着互联网的发展,使用搜索引擎进行信息查找已经成为人们日常生活的一部分。人们只需要输入查询关键词,搜索引擎就可以将互联网上最匹配的网页链接返回给用户。但是搜索引擎
脑卒中为中老年人常见病和多发病,该病发病率高、致残率高、病死率高、治愈率低。在我国,每年大约有200万新发脑卒中病人,因脑卒中死亡人数约达150万人。存活者75%以上留有不
随着信息技术的飞速发展,桌面计算机系统已经广泛的应用于家庭、公司、政府机关与军队中。桌面计算机系统保存了越来越多对个人和公司具有不可估量价值的数据。但是通用操作
top-k join查询返回用户最感兴趣的k个连接结果。近来top-k join已经成为一个重要的研究课题,其在Web数据库,信息抽取和数据挖掘中均有应用。星型模式的数据仓库在实际应用中
在大规模程序中存在许多隐式编程规则,它们表达了程序的内在特性和特定需求;如果程序员忘记或者未意识到这些规则,那么就很容易将缺陷引入程序。隐式编程规则形态多样,可能包