面向Web的XML检索关键技术研究

来源 :东南大学 | 被引量 : 6次 | 上传用户:uan998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web作为一个全球化信息空间,蕴含着海量的信息和知识。随着Web上资源的日趋丰富,各种基于Web的信息检索服务应运而生并得到了迅速发展。实践证明,Web搜索引擎是一个非常有用的信息检索工具。但对任一用户查询,搜索引擎都将返回成千上万个所谓的“匹配”文档,其中可能只有一小部分与用户的查询目标有关,而绝大部分毫无关系。如何组织和消化如此大量的信息,一直是困扰着最终用户的难题。如何帮助用户准确提出信息需求,并快速获得“满意”的查询结果,从而提高检索的效率,一直是研究的热点。尽管目前有大量的研究工作关注于Web数据检索,但现有的技术还远不能令人满意。目前XML已经成为表示Web上多样性数据的事实标准,可以预见Web上的数据将主要以XML形式存在。XML规范的提出,使得信息的组织更加规范,使更准确的信息查询成为可能。随着XML获得越来越广泛的应用以及Web技术的不断发展,如何检索Web上海量的XML数据受到学术界越来越多的重视。在对目前国内外研究现状进行深入剖析的基础上,本文提出了一种面向Web的XML信息检索系统解决方案,对其中的检索模型、文档聚类、索引以及检索等关键技术进行了深入研究。本文的主要工作可以概括为以下几个方面:1.提出了检索模型X2VSM。针对Web上XML信息检索的特点,本文对目前信息检索系统中应用最广泛的信息检索模型-向量空间模型(VSM)进行了扩展,提出了适合XML的信息检索模型X2VSM。与VSM中的关键词term对应,加入相应的路径限定信息,提出了XTerm的概念;针对XML的元素嵌套的特点,提出逻辑文档的概念;提出逻辑XML文档和XML查询的统一向量表示方法;定义了XTerm的权重计算方法,并给出了文档和查询向量的相似度计算方法。X2VSM支持对XML文档进行内容和结构查询,支持任意嵌套层次的元素作为返回结果,还支持基于内容和结构相关性的查询结果排序,同时继承和保持了VSM简单易用等优点。2.研究了XML文档的聚类。分析和比较了直接和间接的聚类策略,在此基础上提出一种基于路径信息的XML文档间接结构聚类算法PBSC。它没有直接计算文档的结构距离,而是采用间接聚类的策略。与其它基于编辑距离的算法相比,具有算法简单、效率较高以及聚类过程直观等优点。聚类结果可用于用户导航以及提高检索的效果。3.研究了XML的结构索引问题。提出一种基于广义后缀树的XML结构索引PIGST。通过PIGST,把对XML文档的路径查询转换为后缀树中的字符串匹配,显著提高了查询处理效率;对传统的后缀树构建算法做了改进,使之能够用来创建由路径集合转换得到的字符串集合的广义后缀树;提出了间接包含路径查询,即查询式包含子孙-后代关系(含有“//”)的高效处理算法。PIGST的构造时间复杂度和空间复杂度是线性的,只与查询字符串的长度有关。4.研究了查询处理算法。基于我们提出的XML信息检索模型X2VSM,提出了一种支持XML元素相关性计算的查询处理算法;对传统的倒排索引进行了扩展,提出了一种带Dewey编码的倒排索引;结合结构索引PIGST,提出了一种高效的内容索引和结构索引的联合索引结构,以支持对XML文档的检索及权重的动态计算;研究了路径的相似性问题,给出相应的计算方法,并将其集成于查询处理算法XRank,使XRank不仅支持内容相关排序,同时还支持结构(路径)相关性排序。
其他文献
采用微波辐射的方法对某焦化厂的焦化废水原水进行降解,考察了废水的p H、初始浓度、微波辐射的时间和功率对去除COD的影响。试验结果表明:p H=9、微波功率800 W、微波辐射4 m
本文讨论了引发高校突发公共卫生危机的诸多因素,如组织协调机构、基础设施建设、宣传教育等;提出构建适应高校突发公共卫生事件危机的预防管理体系,应将强化高校师生危机防控
比较教学法,就是教师指导学生通过比较而掌握知识,提高能力的教学方法。随着教材的不断改进和培养学生能力的教育教学要求,在中学语文教学中,比较教学法越来越突出地显示出它
好的文本总能给人以无限的启迪,甚至是哲学的顿悟。作为希腊悲剧典范的《俄狄浦斯王》不仅在当时推动整个希腊戏剧达到顶峰,而且还以其在艺术上和思想上的成就留给后人一笔巨
工作流技术在实现企业过程重组、面向过程的应用等方面显示了强大的功能和广阔的应用前景。目前相对工作流产品的实现技术和发展速度而言,工作流建模理论的研究相对滞后,在建
诊所法律教育法与模拟法庭教学法虽然在医学院校医事法学专业的实践教学中有推广价值,但是也都存在一定的局限性。应当将此两种教学方法结合起来,以模拟法庭为实验平台,在低
伴随着信息技术的迅猛发展,人们对信息安全的要求也相应的提高。传统的身份识别方法由于其自身固有的缺点已经不能满足社会发展的要求,生物特征识别技术应运而生。作为生物特
在航空、工业检测、灾害监测等领域,用摄像机获取目标或场景的图像,从图像重建目标三维结构或三维场景,可以得到用户感兴趣的三维信息。 对图像的三维解析问题,是一个由二
医疗纠纷作为一种社会冲突现象,是社会危机的反映;寻求其多元化解决途径,是当务之急.在建立和完善医疗纠纷预防与处理机制的问题上,地方立法可以发挥积极作用.浙江省政府已将