论文部分内容阅读
随着互联网的飞速发展,网络信息呈爆发式增长,如何从海量信息中快速获取有效信息成为目前亟需解决的问题,信息检索技术是解决该问题的核心技术之一。在信息检索过程中,用户使用的查询词较少,往往不能很好地表达真实的查询意图,容易产生“词不达意”的问题,使得查询结果不够理想。一些学者从词语的角度出发,通过度量词语间关系挖掘出与查询词相关的词语,来作为查询词的扩展词,提高了检索性能。而从文档的角度出发,合理利用文档关系也可提高模型的检索性能,但是相关研究较少。针对以上问题,本文从文档关系的角度出发对基本信息检索模型的扩展和改进展开研究。由于信念网络检索模型具有灵活的框架,向量空间模型的经典性和便捷性,本文以这两个信息检索模型为例,寻找文档间的隐含关系,分别提出了以下两种模型:(1)基于文档关系扩展的信念网络检索模型:通过在基本的信念网络检索模型中增加一层文档节点,并依据文档与文档间的相似关系来确定两层文档间是否存在弧,即对于任意文档,计算它和其他所有文档的相似度,取相似度较高的前k篇文档作为文档的相似文档,也就是这篇文档的父文档。然后结合文档相似度和文档节点的父文档个数对基本信念网络检索模型的概率推导做出修正,给出更为合理的文档检索概率计算。(2)基于文档关系改进的向量空间模型:首先将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正文档与查询的相似度,作为该文档最终的相似度,实现对向量空间模型的改进。本文采用一个小型中文信息检索数据集对研究内容的有效性进行验证。首先对数据集中的所有文档进行预处理,然后将本文提出的两种新模型分别与其基本模型进行实验对比,最后采用折损累计增益(DCG)和查准率-查全率曲线来评价模型的检索性能。实验结果表明:与其基本模型相比,两种新模型均使得相关文档排名更合理,并且在保证查全率的条件下,提高了查准率。