基于web的XML中文检索模型的研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:xingdeyanglina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  XML是网络上数据表示和交换的主要标准,提高检索效率和准确度是XML信息检索面临的主要问题。XML信息检索系统与传统的信息检索系统不同,主要体现在三个方面,首先检索的对象不同,XML检索的对象是XML元素,而不是传统信息检索的文档;其次,XML检索的索引不仅需要建立内容索引,还需要建立结构信息索引;最后,由于检索的对象不同,所以XML检索的结果相关度计算算法也比较复杂,不仅需要按照传统的信息检索理论考虑关键字之间的距离,还需要考虑XML文档树的结构。  为满足结构复杂,大规模的XML信息检索的需要,本文深入研究了XML信息检索的已有理论及原型系统。主要研究了XML信息检索系统的XML索引结构和索引检索算法,以及检索结果的相关度计算方法三个方面的内容,提出并实现了一种基于关键字查询的XML中文检索模型。本文包括4个方面的内容:第一,分析了已有的XML数据索引结构中存在的问题,提出了一种高效的基于倒排表的“文档-关键字-节点”两级索引结构,该结构在不显著增加索引的空间占用的情况下包含了更加丰富的XML文档的结构和内容信息,缩小了索引检索时文档搜索的范围,提高了检索的效率;第二,在提出的基于倒排表的“文档-关键字-节点”两级索引结构的基础上,提出了一种高效的索引检索算法,该算法与索引结构相结合,通过优化索引结构的搜索顺序,有效的提高了基于关键字的XML信息检索的检索效率;第三,本文提出了一种基于TF-IDF的查询结果相关度计算算法,该算法基于已有的信息检索理论中结果相关度计算算法,既考虑了XML数据中关键字出现的位置,又考虑了XML文档的树型结构对查询结果相关度的影响,从而提高了检索的效率;第四,设计并实现了一个XML中文信息检索系统的核心功能原型系统—XSK(XML Search based on Keywords)。XSK系统是一个中文XML信息检索系统,集成了本文提出的“文档-关键字-节点”两级XML索引结构,基于此索引结构的索引查询算法和结果相关度计算算法,实验证明此系统可以比较准确高效的完成XML数据的检索。
其他文献
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处理,传送到需要信息的用
磁分离酶免疫分析测试仪主要用于对人体内分泌激素进行检测,根据激素指标的差异,为医生确定病人病情提供科学依据。目前,酶免仪已经成为医疗机构进行临床诊断所必需的医疗仪器之
当前众多的基于OSI的大型异构管理网络中,网管信息分散于各代理的MIB中,由于底层网络管理协议不同,这些网管信息的表现形式也不同,在传统的网络管理模式中没有统一的语义来解
在离散事件动态系统的研究中,逻辑层次的建模与控制是一个很重要的方面。由于Petri网的一些特点,例如真并发的语义、易于转换为计算机程序控制码、逻辑电路形式的硬件实现,因此
数据库知识发现(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成熟
Internet/Intranet不仅冲击了传统的市场,供应,销售和服务领域,也给人力资源管理带来了新的挑战和机遇,eHR实际上是一种基于Internet/Intranet的人力资源管理系统,为了将人力资源管理人员从繁重琐碎的日常事务性工作中解脱出来。大量IT技术的引入,eHR可以通过集中式的信息库、自动处理信息、员工自助服务、外部协助以及服务共享等信息化手段,使人力资源管理达到降低成本、提高效率
二进制翻译技术可以将一种体系结构的二进制代码翻译成另一种体系结构的二进制代码,很好地解决代码兼容性问题,缓解软硬件之间的矛盾,从而推动计算机技术的发展。根据翻译时机的
在Internet高速发展的今天,大量的弱点信息不断地出现,黑客经常利用计算机软件或配置上存在的弱点,进行无授权访问、特权提升、DoS攻击等,严重地危害了系统安全。仅在2005年,
活性是Petri网的基本的动态性质之一,在实际系统中,尤其在火箭控制系统、医学上的生命维护系统、核电站的安全系统等有关生命、财产安全的系统中更为至关重要,在这些系统中死锁