论文部分内容阅读
随着Internet技术的发展,越来越多的应用采用XML语言作为信息表示和数据交换的标准,人们对于XML数据查询技术的要求也越来越高。传统的XML查询技术对查询条件进行精确的匹配,无法反映查询者对于XML数据内容在语义上的近似要求。因此,近似查询技术被应用到了XML查询当中。由于XML文档是半结构化的数据表示形式,基于内容的XML近似查询就要在满足文档结构要求的基础上,考察内容的近似性。已有的基于内容的XML近似查询技术,从根本上讲都是把元素聚类或映射到相似语义单元中,然后构造语义模型进行近似查询。这些方法在实现上要求构造语义模型,构造过程中会带来元素的类别划分不准或者语义丢失等问题,查询代价也不容忽视。因此需要找到一种不必建立语义模型的近似查询方法。本文提出了一种基于文档属性单元扩展的XML近似查询方法。该方法提取出XML文档中的叶子结点和属性结点作为属性单元,根据属性单元的重要程度序列,对初始的查询条件扩展,利用新的查询条件对原来的XML文档进行查询。整个近似查询方法主要分成三部分:首先,在提取出的XML文档属性单元中,利用一种高效发现函数依赖关系算法,找到属性单元之间的近似函数依赖关系,根据属性单元在函数依赖关系中出现的左右部位置,求得近似候选码。选择支持度最大的候选码作为近似关键字,组成近似关键字的所有属性单元成为决定集的成员,剩下的属性单元成为依赖集的成员。然后,根据近似候选码对依赖集中属性单元的支持度,计算出每个属性单元的重要性权重,排出属性单元重要程度序列。根据排出的属性单元序列,先扩展依赖集中的属性单元,最后扩展决定集中的属性单元,保证最不重要的属性单元先扩展。最后,根据扩展后新的查询条件,对XML文档重新查询,返回结果。由于利用了XML文档数据自身的函数依赖关系,扩展后的查询会将满足核心查询条件的结果排在最前。实验测试表明,属性单元扩展的近似查询方法能够在满足查询者对文档内容的近似要求,同时在召回率和排序稳定性上也取得了较好的效果。