基于文档属性单元扩展的XML近似查询方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:lihao527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,越来越多的应用采用XML语言作为信息表示和数据交换的标准,人们对于XML数据查询技术的要求也越来越高。传统的XML查询技术对查询条件进行精确的匹配,无法反映查询者对于XML数据内容在语义上的近似要求。因此,近似查询技术被应用到了XML查询当中。由于XML文档是半结构化的数据表示形式,基于内容的XML近似查询就要在满足文档结构要求的基础上,考察内容的近似性。已有的基于内容的XML近似查询技术,从根本上讲都是把元素聚类或映射到相似语义单元中,然后构造语义模型进行近似查询。这些方法在实现上要求构造语义模型,构造过程中会带来元素的类别划分不准或者语义丢失等问题,查询代价也不容忽视。因此需要找到一种不必建立语义模型的近似查询方法。本文提出了一种基于文档属性单元扩展的XML近似查询方法。该方法提取出XML文档中的叶子结点和属性结点作为属性单元,根据属性单元的重要程度序列,对初始的查询条件扩展,利用新的查询条件对原来的XML文档进行查询。整个近似查询方法主要分成三部分:首先,在提取出的XML文档属性单元中,利用一种高效发现函数依赖关系算法,找到属性单元之间的近似函数依赖关系,根据属性单元在函数依赖关系中出现的左右部位置,求得近似候选码。选择支持度最大的候选码作为近似关键字,组成近似关键字的所有属性单元成为决定集的成员,剩下的属性单元成为依赖集的成员。然后,根据近似候选码对依赖集中属性单元的支持度,计算出每个属性单元的重要性权重,排出属性单元重要程度序列。根据排出的属性单元序列,先扩展依赖集中的属性单元,最后扩展决定集中的属性单元,保证最不重要的属性单元先扩展。最后,根据扩展后新的查询条件,对XML文档重新查询,返回结果。由于利用了XML文档数据自身的函数依赖关系,扩展后的查询会将满足核心查询条件的结果排在最前。实验测试表明,属性单元扩展的近似查询方法能够在满足查询者对文档内容的近似要求,同时在召回率和排序稳定性上也取得了较好的效果。
其他文献
在一些无线传感器网络的应用系统中,如事件检测和异常检测系统,带有异常信息的数据在传输时对实时性要求是很高的,要尽最大的可能使得该数据在一个限定的时间内传送到目的节
随着无线技术的不断发展,越来越多的用户选择通过无线局域网(WLAN)接入互联网;这一趋势使得提高无线宽带接入的质量逐步成为了研究热点。近年来,在WLAN的基础上出现了多跳无
量子计算是新近发展起来的,利用量子力学原理进行信息处理的前沿学科。随着理论与技术的成熟及更多专家和学者加入该领域的研究,量子计算得到突飞猛进的发展,对计算机科学的发展
文档的数字化是建设信息化社会的迫切需要,作为转换工具的OCR(Optical Character Recognition,光学字符识别)技术已得到广泛应用。随着数字成像设备的普及,OCR技术开始进入视
当前,企业信息化的程度要求越来越高,其中一个重要的方面就是企业的数据的管理,根据“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)”这条原理,为了支持正确决策,
随着面向方面编程技术的日渐成熟,面向方面建模已成为软件工程学界研究的热点。面向方面建模利用建模语言对系统进行面向方面的分析和表示,允许设计人员在系统设计的初始阶段就
云计算是一种新兴的商业计算模型,计算任务被分布在由大量计算机构成的资源池上,用户能够按照其需求获取计算能力、存储空间和信息服务。互联网已经全面进入了云计算时代,IT
移动自组网作为移动通信新崛起的一个重要分支,近几年发展迅速,并从最初单一的军事应用逐渐渗透到民用领域。移动自组网是一种具有特殊结构的无线通信系统,它的通信不依赖于任何
随着计算机科学技术的发展以及硬件性能的提升,操作系统的稳定性及安全性日益成为现今面临的最主要的挑战。操作系统的安全决定着整个计算机系统的安全,内核作为操作系统的核
无线Ad hoc网络是由一组移动终端自由组网而实现通信的一种网络形式,具有无中心、自组织、多跳路由、以及动态拓扑的特点,TCP协议不能适应无线Ad hoc网络的这些特点,导致了性