对SLCA进行语义分析的XML关键字查询

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:mhy8348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML结构查询算法能根据精确的查询条件输出理想的查询结果。不过,该算法不仅要求查询用户熟悉结构查询算法所采用的查询语言,而且还要求了解待查询的XML文档树结构。这些要求对于绝大多数用户而言是不现实的。   XML关键字查询算法是找出符合查询关键字的SLCA(Smallest Lowest Common Ancestor),即最小最低公共祖先的集合,该查询的本质是找到包含所有关键字的最紧致片段。从用户角度看,XML关键字查询是一种能够被广泛使用的查询方法。许多学者在这方面做了大量研究并改进了一些算法。根据SLCA方法找到的XML片段虽然包含了用户需要的查询结果,但其缺点是查询结果中包含了更多无意义的信息。其原因是在根据XML关键字查询时并没有考虑查询用户的查询意图。   对SLCA进行语义分析的XML关键字查询,也就是对查询关键字的最小最低公共祖先生成的子树进行语义分析的查询方法。   为克服基于SLCA在XML关键字查询中所存在的缺点,本文提出了一个对SLCA子树进行语义分析的XML关键字查询算法。本文在深入分析XML文档所隐含语义的基础上,结合查询语句定义了新的语义相关性判断函数。以此对最紧致片段进行语义分析,从而获得到了满足用户查询意图的查询结果。论文的主要研究工作如下:   (1)设计并实现了一种改进的基于分类归并(Based On Clustering)思想的SLCA求解算法;实验发现,和LISAII相比,该算法在保证查准率的情况下,提高了查询速度。   (2)提出了一种新的在SLCA子树中加入语义的XML关键字查询算法(SLCA-SA,Smallest Lowest Common Ancestor Semantic Analysis)o进一步完善了XML结构语义性的概念,结合查询语句给出了对SLCA子树的语义相关性进行判断的规则。   (3)分析了包含所有关键字的最紧致片段中可能存在无意义子树的问题,对原有算法进行了扩展,能生成更加精确有效的最紧致片段。   (4)实现了SLCA--SA算法。实验表明,该算法在查询效率和精确度上都有较大改进。
其他文献
为软件项目构造合适的过程模型对提升软件质量和生产率具有重要意义,但这也是一个知识密集,耗时费力的工作。为此,北京大学软件工程研究所提出了一种基于模式的软件过程构造方法
随着硬件、网络与通信技术的飞速发展和实际应用需求的持续推动,数据流作为一种新的数据形式在众多领域有着广泛的应用。目前对于数据流管理的研究成果主要集中于近期数据流的
随着互联网信息大爆炸时代的来临,人们可以从互联网上获取的信息也越来越多。搜索引擎的诞生解决了在海量互联网网页中检索特定信息的难题。然而随着时间的推移,旧的网页在消
伴随着信息化时代的到来,各种信息以爆炸式增长,导致图的规模日益增大,传统的图挖掘算法已经不能很好的满足需求。一方面,并行计算可以有效解决这个问题,而包括Hadoop、Hama
XML(eXtensible Markup Language,可扩展置标语言)是由W3C发布的一种标准,它具有文档的内容和结构完全分离,互操作性强,规范统一,扩展性强等优点。XML的常见应用领域包括数据
同时定位与地图创建是指机器人在移动过程中根据传感器数据创建环境地图的同时进行自身位姿的估计。目前,很多同时定位与地图创建的研究都是在假设环境只包含有静态目标的前
随着本体研究的开展与深入,本体被广泛应用到各个领域之中,越来越多的本体被构建用以表示知识与共享知识。由于不同领域问题的不同特征以及网络的分布性,不同领域构建的本体
随着计算机技术的快速发展和因特网的日益普及,各种媒体内容被转化为数字形式,提高了信息表达的效率和准确性,但是数字产品极易被非法复制,盗版已经对数字化产业构成最大的威胁。
面对Web所提供的仍在不断扩张的信息海洋,抽样是研究人员了解Web整体特征情况最有力的工具。抽样是一种推论统计方法,它是指从目标总体(Population)中抽取一部分个体作为样本(S
P2P存储系统具有良好的扩展性,并且能够利用边缘网络计算机上的数量巨大的存储容量和网络带宽,具有巨大的服务潜力。自提出以来一直受到学术界的关注,但在其后的时期内却没有出