信息检索中的查询扩展技术研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:konghao12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络上的信息呈爆炸式增长,网络技术的发展拓宽了我们获取信息的渠道,然而这些海量信息在给我们的日常生活带来极大便利的同时,也给我们带来很大的困扰,人们在面对这泛滥成灾的海量信息的时候无所适从,陷入了信息量过载的困境。如何从这些海量信息中检索出用户自己所需要的信息己成为信息检索领域一个非常重要的研究课题。由此,搜索引擎应运而生,而由于用户提交的查询与文档信息不匹配和表达不完整等现象的存在,传统信息检索不能满足用户的查询要求。为解决此问题,有些学者提出了查询扩展技术,通过一定的方法和策略对用户的初始查询词进行扩展和重构,从而达到改善检索性能的目的。查询扩展是信息检索中优化查询的一种有效方法,研究信息检索中的查询扩展技术,具有重要的理论价值和实际意义。本文的主要研究工作如下:首先,文章说明了本文的研究背景、目的及意义,对信息检索与查询扩展的发展做了简要的概述。随后介绍了信息检索中的一些相关知识与理论并对目前的几种传统查询扩展技术进行了详细地分析与介绍,为本文的研究工作提供了一定的理论基础。其次,比较研究了三种传统的信息检索模型的检索性能,包括布尔模型、向量空间模型和概率模型。通过分析几种模型的检索原理与检索性能,比较这些模型的优缺点,并在此基础上对传统的向量空间模型进行了改进,提出了一种基于web页面结构的改进向量空间模型,该模型基于html语言的结构信息,将web文本文档的内容划分为标题类、黑体类、正文类3块,根据不同的块在文档中的位置以及对文档的重要程度不同,给各块赋予不同的权重比例系数,对其中的词项权重进行重新调整,以更好的区分相关文档和不相关文档,从而提高检索系统的检测性能。再之,结合查询扩展方法的不同特点以及检索模型各自的优缺点,在前文的基础上,利用上一章提出的改进的向量空间模型,提出了一种基于web页面结构和用户查询行为的伪相关反馈查询扩展算法,该算法利用本文提出的基于web页面结构的改进向量空间模型在不改变用户查询行为的情况下,结合用户对初检结果的查询浏览行为提取相关文档,然后对初始查询进行扩展。实验表明,该模型比传统的tf-idf算法、基于局部上下文分析的查询扩展算法和基于Apriori算法的局部反馈查询扩展算法的检索性能都有明显的提高。
其他文献
在传感器网络、无线射频识别、市场预测、信息提取等应用中,由于各种因素的影响,数据表现出固有的不确定性,而且不确定数据之间存在着复杂的相关性(包括时/空相关性),管理与查询这
语义检索是三维模型检索领域的研究热点,本文针对语义检索中的两个重要环节,内容特征提取和语义标注技术展开研究,考虑到计算机视觉图像是三维模型最有特点的内容特征之一,故
异构并行系统是高性能低功耗计算机系统的主要发展趋势之一,异构并行系统下的低功耗研究是近年来学者研究的热点问题。由于动态电压频率调整(DVFS,Dynamic Voltage and Frequ
项目管理是企业信息化的核心组成部分,项目管理技术和工具为项目管理提供了科学的技术和手段。随着管理理念的不断变革,科学技术的飞速进步,项目管理的应用也越来越广泛。当
在日常的军事演练中,运动目标和传感器的实时数据获取难度大,一般不具有可重现性,并且演练代价昂贵,因此有必要提出一种新的辅助数据融合系统。数据仿真系统是一个辅助数据融
自适应随机测试(Adaptive Random Testing, ART)是近几年发展起来的一种黑盒测试方法,固定候选集的ART算法(Fixed Size Candidates Set Version of ART, FSCS)是实现ART算法
随着互联网技术的不断发展和在线社交网络的出现,信息传播的速度更快、范围更广,引起了国内外学者广泛的注意。它既为一些商家病毒式营销创造了有利的条件,也使得谣言、诈骗
机载通信网络技术是实现航空电子系统间大容量的高速数据交换的枢纽和核心,其性能和功能决定航空电子系统综合化程度的高低,是现代先进飞机航空电子综合化最重要的关键技术之
基于构件的软件开发方法(Component-Based Software Development)被视为解决“软件危机”的有效途径之一,构件库是这一方法的基础设施。然而单一构件库的规模不能满足软件开
随着互联网的快速发展,海量的数据以网页的形式发布到互联网上。传统的网页是面向用户而设计的,人们可以通过浏览器可视化的阅读信息。然而对于机器来说,这些信息是难以理解