基于PLSI的信息检索中查询扩展相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:djseagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,各种信息资源越来越丰富,尤其是互联网资源。为了能够从这些海量数据中获取所需要的各种各样信息,需要高效的信息检索系统,它是人们获取所需信息的钥匙。当前的信息检索系统普遍存在着很难在持续快速增长的互联网上准确、全面地检索与用户查询要求相关的文档的问题。针对这些问题,本文从文档文摘和查询扩展两个方面进行了研究,在抽取文档文摘的基础上提出了基于概率潜在语义索引(PLSI, Probabilistic Latent Semantic Indexing)模型的查询扩展方法,并且将该方法同目前普遍采用的其它相关反馈方法在检索性能上进行比较,来改进检索性能。主要研究内容包括:1.面向检索的文摘。本文对机械文摘的一般方法进行了研究,针对检索任务,生成一个面向检索的文摘将对提高检索的效率起到积极的作用。本文在语言模型框架下,验证了文摘在对检索性能上的影响。2.基于概率潜在语义索引模型的查询扩展。该方法在对查询选取扩展词时充分利用了语言成分以及自然语言词汇具有多义性和歧义性,并且考虑了上下文对语义的限定等因素。通过在TREC测试集上进行的实验表明,相对于未进行查询扩展的简单的语言模型,本文的方法在检索性能上取得了一致性大幅的提高。3.分析比较了基于PLSI的查询扩展方法和目前普遍采用的伪反馈方法在检索性能上的差别。通过在TREC测试集上的实验表明,本文提出的基于PLSI的查询扩展方法和目前普遍采用的几种伪反馈方法在检索性能上相比,其检索性能都优于目前普遍采用的伪反馈方法,检索性能提升幅度最大达到45.74%,提高接近了一半的检索性能。因为伪反馈的有效性依赖于检索结果的相关度,它能克服上述伪反馈方法的不足。
其他文献
随着互联网的飞速发展,越来越多的互联网用户开始成为电子邮件的受益者,同时网络空间中的电子邮件信息量也呈现出不断膨胀的趋势。电子邮件作为人们常用的一种通信工具,其中
随着计算机网络技术的迅猛发展,办公自动化和企业信息化的不断普及,人们对数据存储的需求越来越高。单机所包含的磁盘容量己经不能满足人们的日常需要,这就要求有一种可靠的
基于特征造型技术的三维CAD系统目前已广泛应用于产品设计,同时CAE在产品设计与优化中也起到了越来越重要的作用.而有限元是最为广泛使用的CAE方法之一。由CAD系统建立的模型
机制设计是微观经济学和博弈论的分支领域,它的核心思想是设计某种规则,在理性代理参与的条件下,达到既定目标,获得最大社会利益。但由于代理能力的有限性和外部环境的不确定性,不
身在电子信息量快速增长的社会,如何在海量的信息资源中迅速准确地找到所需信息,是当前信息处理领域的一个重要问题。文本分类的出现很好地解决了上述问题。文本分类是基于文本
Web服务可实现应用程序在Internet上的互操作,已成为一种具有发展潜力的分布式网络应用集成技术。服务发现是Web服务技术中的一个重要环节,进行Web服务发布、发现的组织,快速
蛋白质的生物功能是由其空间折叠结构决定的,因此预测蛋白质的折叠结构是生物信息学领域中极具挑战性的问题之一。近年来,许多研究者从事蛋白质简化模型的研究,这些模型基于
近几年来,基于生物免疫的网络入侵检测是网络入侵检测研究领域的热点,它的突出特点是利用生物免疫系统的机制来实现对入侵行为的检测。生物免疫系统具有多样性、自适应性、耐
光学三维测量技术拥有大量程、大视场、非接触等其他测量技术不可比拟的特点,因此该技术被广泛应用于涉及物体三维表面轮廓形状测量的各个应用领域。其中基于结构光的三维测
从上世纪末开始,由于基于宽带卫星数据网络的快速发展,整个卫星通信行业又开始进入新一轮的快速增长期。有许多投资巨大的宽带卫星通信网络系统正在研制或者即将发射运行,这