论文部分内容阅读
随着互联网的快速普及与Web网站的蓬勃发展,如何在海量数据中快速、准确地找到有效的信息,成为了一个重要课题。搜索引擎是信息发现的有效手段,努力提升搜索质量,让用户更准确的获取所需信息,具有非常重要的实际意义。经过科研人员的不懈努力,提出了大量的信息检索模型。近年来的研究表明,文档中词项的邻近关系可以影响相关性得分,查询词出现的越密集、得分越高。 本文重点研究了Web信息检索中的词项邻近度问题,主要探讨了邻近度特征及评价、邻近度检索模型、模型的融合、模型的应用。本研究的主要贡献包括: 1.借鉴前人的研究成果,我们提出了去重滑动窗口等4种基于滑动窗口的特征;提出了MinK覆盖等3种基于词项距离的特征。为了验证特征,我们提出了两种特征评价方法:特征均值分组分类比较法、直接排序宏平均比较法。实验表明:去重滑动窗口、MinK覆盖等特征具有很好的区分度,可供邻近度模型使用。 2.基于上述研究成果,我们将特征转化为检索模型。本文使用去重滑动窗口替换BM25模型中的词频、子查询拓展IDF替换BM25模型中的IDF,提出了SW25检索模型;通过核函数将词项距离转化为概率形式,融入语言模型框架,提出了SpanLM检索模型。词项邻近度模型需要与传统模型进行融合,为此,我们提出了线性加权、加乘奖励、排序学习等三种方式。实验结果表明:SpanLM模型在线性组合后提升显著:WT2G(24.7%)、WT10G(16.6%)、GOV(10.8%)、GOV2(20.43%);排序学习模型的提升约为9.87%。工作对比表明,本文提出的模型与已有研究成果的提升基本相当,且本文研究成果具有更好的鲁棒性。 3.最后,我们在现有的分布式检索系统中,引入了词项邻近度检索层,实现了系统原型。该系统应用了MongoDB、Gearman等技术,完成了邻近度模型的分布式、快速计算。测试结果表明,该原型系统可以满足实际检索服务的性能要求。