论文部分内容阅读
XML (eXtensible Markup Language)即可扩展标记语言,是W3C定义的一套语义标记规范。随着网络应用的快速发展,Web上的数据成指数级增长,XML逐渐成为Internet上数据交换和描述信息的标准格式,广泛应用于数字图书馆、数据集成、Web服务等领域,这使得XML类型数据成为网络上主流数据形式,从XML数据中提取有用信息成为了当前研究的重要方向。相较于XML结构化查询,XML关键字查询成为XML数据检索的重要分支。XML关键字搜索方法都是以LCA (Lowest Common Ancestor)为基础形成的。为了提高搜索质量和效率,研究人员又提出了许多查询语义,包括SLCA(Smallest LCA), MLCA(Meaningful LCA)、VLCA(Valuable LCA)等。这些查询语义及实现算法在实际应用中可能存在一些问题,如返回无意义结果、丢失有意义信息等。本文考虑到一个XML文档可以看作现实世界中实体、属性、值构成的集合,这与关系数据库中ER模型相似。XML文档中不同元素代表不同信息类型,将XML文档元素进行分类,以实体作为基本查询单元来定义XML关键字搜索的查询语义,提出了最低公共实体祖先LCEA的概念,一个LCEA结点是描述现实世界完整信息单元的实体对象。在LCEA的基础上,提出了最小的最低公共实体祖先SLCEA (Small Lowest Common Entity Ancestor),为用户提供了简单易用搜索方法,解决了返回结果不完全和返回结果无意义的问题。在实体概念的基础上,根据元素之间关系改进了XML关键字搜索方法,使之不仅支持明确查询,而且支持XML关键字模糊查询和高级搜索。首先根据不同实体对查询关键字进行分区,然后过滤实体分区倒排表,最后采用ILE算法计算最小最低共同实体祖先。在输出结果时,根据SLCEA不同情况分别推断出不同的输出信息。对于模糊查询处理,本文的方法能够识别和排序不同的搜索意图,并分别返回每个搜索意图的结果。最后实验验证了本文方法在搜索质量和执行效率方面的性能。