基于实体的XML关键字搜索问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:happybaby1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML (eXtensible Markup Language)即可扩展标记语言,是W3C定义的一套语义标记规范。随着网络应用的快速发展,Web上的数据成指数级增长,XML逐渐成为Internet上数据交换和描述信息的标准格式,广泛应用于数字图书馆、数据集成、Web服务等领域,这使得XML类型数据成为网络上主流数据形式,从XML数据中提取有用信息成为了当前研究的重要方向。相较于XML结构化查询,XML关键字查询成为XML数据检索的重要分支。XML关键字搜索方法都是以LCA (Lowest Common Ancestor)为基础形成的。为了提高搜索质量和效率,研究人员又提出了许多查询语义,包括SLCA(Smallest LCA), MLCA(Meaningful LCA)、VLCA(Valuable LCA)等。这些查询语义及实现算法在实际应用中可能存在一些问题,如返回无意义结果、丢失有意义信息等。本文考虑到一个XML文档可以看作现实世界中实体、属性、值构成的集合,这与关系数据库中ER模型相似。XML文档中不同元素代表不同信息类型,将XML文档元素进行分类,以实体作为基本查询单元来定义XML关键字搜索的查询语义,提出了最低公共实体祖先LCEA的概念,一个LCEA结点是描述现实世界完整信息单元的实体对象。在LCEA的基础上,提出了最小的最低公共实体祖先SLCEA (Small Lowest Common Entity Ancestor),为用户提供了简单易用搜索方法,解决了返回结果不完全和返回结果无意义的问题。在实体概念的基础上,根据元素之间关系改进了XML关键字搜索方法,使之不仅支持明确查询,而且支持XML关键字模糊查询和高级搜索。首先根据不同实体对查询关键字进行分区,然后过滤实体分区倒排表,最后采用ILE算法计算最小最低共同实体祖先。在输出结果时,根据SLCEA不同情况分别推断出不同的输出信息。对于模糊查询处理,本文的方法能够识别和排序不同的搜索意图,并分别返回每个搜索意图的结果。最后实验验证了本文方法在搜索质量和执行效率方面的性能。
其他文献
在高速发展的信息时代,随着网络技术和规模的不断发展,信息安全已经成为全球性的重要问题之一。入侵检测技术作为新一代安全保护技术,它对计算机或网络中发生的事件监视和分
由于互联网中信息爆炸式的增长,导致用户很难直接发现有用的信息。为此,根据用户的历史行为数据进行建模的推荐系统吸引了学者的广泛关注,可以一定程度上缓解信息过载的问题
移动自组网Manet(Mobilead-hocnetworks)是由若干带有无线收发器的移动节点所组成的无基站的自治网络,广泛应用于军事、民用、商业等各个领域。在商业领域中,诸如电子商务、网
k最近邻居问题(kNN)是空间数据库研究领域最基本的问题之一,是指在特定空间中寻找离查询点最近的k个目标点,包括几何空间,道路空间等。道路空间中的kNN变种包括连续k最近邻查
随着网络技术日新月异的发展,越来越多的单位采用各种基于网络的应用系统,以提高管理效率和服务水平。各单位为了不同的业务需求部署了多种网络应用。在不同的应用系统中,大
学位
近年来,云计算技术越来越受研究者欢迎。利用云计算技术,无线传感网可以支持从底层到上层应用。无线传感网一旦部署到目标区域,就能够对目标区域进行实时感知,这都得益于网络
学位
随着网络信息技术的飞速发展,基于网络的贸易、娱乐、通信和教育等活动也逐渐发展起来并在实际中得到了越来越多的应用,网络活动的安全性问题也受到了越来越多的关注。认证技
随着数码摄影设备和互联网的飞速发展,随着手机和平板电脑等移动设备技术的不断进步,越来越多的图像、视频等超文本媒体信息不断涌入人们的视野并且持续传播扩散。面对如此大
随着嵌入式系统与网络的日益结合,具备网络通信能力的嵌入式设备已成为必不可少的需求。IPv4地址空间的严重不足,已不能满足数目庞大的嵌入式设备,能够支持下一代因特网的嵌