XML文档编码机制的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:mhouwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,XML在网络应用上日益发展,尤其是电子商务、web服务等—系列应用理念的进一步发展,XML类型的数据便成为了数据表示和交换的主流形式。作为半结构化数据的表示模型XML从提出到现在只不过几年时间,已经显现出其强大而广泛的应用前景。最近几年,在各领域中XML都得到了广泛应用,逐渐被用来作为信息表现和交换的标准,这使得与XML数据相关的领域成为研究热点。由于查询是数据库最为频繁的操作,所以,理所当然的,如何提高XML数据查询的效率成为主要的研究方向之一。目前Native XML数据库的查询求解有以下三种算法:基于XML索引的导航遍历算法;基于XML文档编码的结构链接算法;基于XML文档序列标示的序列匹配算法等。在以上算法中,利用结点编码进行结构连接的算法是主流技术之一。提出XML文档编码就是为了降低查询处理的成本,提高查询求解的效率。对于一个查询(路径表达式),一个较为简单的方法是自顶向下遍历XML文档树中的结点来匹配路径表达式。但是,如果为XML文档树中嵌入有效的编码方案,就能很快检测出XML文档树中的任意两个结点之间的结构关系。本文在深入研究现已提出的编码方案的基础上,结合了前缀编码和区间编码的优点,利用了子树划分的思想,首先,提出了一种基于矩阵划分的XML文档树编码MBL,该编码方案包括三部分,进行编码前,要先对树进行矩阵划分,以便得到矩阵编码,剩余的两部分编码分别是矩阵块内的前缀编码和覆盖子树块得区间编码。该编码基本是定长的,所以,编码长度不会随着结点的插入增长。该方案对某些情况下的插入代价基本为零。本文还基于MBL编码设计了相应的存储策略,针对可能出现的存储溢出问题给出了子树分裂算法;基于MBL编码自身的特点设计了索引机制,该索引结构的记录之间不需要相互保存对方的地址,提高了记录间的独立性,有效降低了更新代价。这样,即使结点的记录地址发生了改变,也不需要对索引进行修改,降低了索引的维护代价。分析了基于此编码的祖先/后裔关系的判断,通过分析得出采用该编码方案,可以在常数时间内给出任意两结点间祖先/后裔关系的判断。并给出了计算结点间相隔层次的公式,改进了包含关系的结构连接算法。最后,本文进行了一系列实验,实验结果表明本文基于矩阵划分的XML文档树编码方案及存储策略和结构连接算法的良好性能。
其他文献
流媒体点播对网络带宽要求很高,在传统基于C/S的模型中,当用户数量大规模增长时,该模型由于网络带宽不足难以保证系统的服务质量。而在P2P网络模型中,节点之间直接可以交互信
指纹识别是目前最为普及的一种基于生物特征的身份认证方式。自动指纹识别技术已经取得了许多研究成果,并获得了广泛应用,但其识别率仍然远低于人工指纹识别,制约了指纹识别
由于人的生理特征具有便于携带、不丢失、不易仿制、复杂度高等特点,生物特征识别技术已成为信息社会身份认证的主要手段之一,指纹识别技术更是使用最早和最为广泛的生物特征
支持向量机是Vapnik等人于1995年在统计学习理论基础上提出的一种模式识别算法,其根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以求获得最好的推广能力。而核
群集生物行为的研究是人工生命学领域的研究重点和热点之一,而其仿真模型在电影动画制作、生物学研究以及军事信息化领域都有广泛的应用。本文所提出的鸟群基于不同生物特性的
随着我国车辆保有量的激增,开车堵和停车难问题在城市显得尤为突出,根据调研数据[1]分析我国城市平均1辆车对应0.3到0.4个停车位,而欧美平均值为1.2到1.5个停车位,在停车位大大少
随着分布式技术的发展,特别是在Internet成为主流软件运行环境之后,网络的开放性和动态性使得软件的变化性和复杂性进一步增强。同时,对于一些实时和长期运行的关键任务系统
随着教育规模的持续扩大,学生数量急剧增加,给学生管理工作带来很大压力,单纯的学生信息管理系统信息化远远不能满足需求,由此提出了数字化校园的建设目标,即以网络为基础,利
信息时代的到来,使得计算机成为人类生活中重要的工具,为了更加友好地实现人机交互,让计算机也能“听懂”人类的语言,语音识别技术便应运而生。语音关键词检出技术是语音识别
在军事领域、商业领域和自然科学研究等领域中,需要计算机具有很高的可靠性。提高计算机的可靠性对计算机计算结果的正确性、连续运行的稳定性有着重要的意义。目前在高可用