论文部分内容阅读
在过去的四十年里,信息检索领域出现了很多经典的模型,诸如布尔模型、向量空间模型以及概率模型。随着Pnoet和Corft首次提出基于统计语言模型的检索模型,近十年来该模型得到了快速的发展。国内外许多学者都加入了这个领域的研究,做了大量有意义的工作,因此又陆续的提出了隐马尔科夫模型,统计翻译模型,风险最小化模型等。但是大多数检索模型都是基于词在文档中的频率,而未考虑词在文档中的位置关系。例如这样的两篇文档——包含了相同集合的词并且每个词在两篇文档中的出现频率都一样,唯一不同的是这些词在文档中摆放的位置顺序有所不同,那么对于大多数检索模型这两篇文档的检索得分是一样的。但若第一篇文档中查询词与查询词出现得更为邻近,第二篇则出现得更为疏远的话,那么显然第一篇文档理应获得更高的检索得分,而大多数检索模型都无法做到这点。基于这点出发,Lv和Zhai提出了一种位置语言模型,并成功的应用于信息检索,该模型最大的优势就是考虑了文档中词与词的位置关系。但该模型依然还存有缺陷:并未考虑到词与词之间的语义关系。因此本文在他们的工作基础上进行了改进,提出了一种结合语义的位置语言模型。具体来说本文的主要工作和创新点如下:1)提出了一种新的技术——“平滑互信息”,来度量两个词之间的转移概率。由于数据集中的词存在稀疏性,因此直接使用互信息来度量两个词的转移概率会造成大量的词对无法计算。本文则对互信息采用了一种平滑技术,使得数据集上几乎任意两个词都可计算出平滑互信息,从而计算出两个词的转移概率。更为重要的是,这种平滑技术遵循了词在数据集中的原始分布,并在附录中给出了这种平滑技术的理论证明。2)基于概率统计学以及互信息等相关理论,提出了一种结合语义的位置语言模型。本文给出了该模型中每个未知参数的估计思想以及估计方法,并且进一步对比了位置语言模型和结合语义的位置语言模型的异同点。最后证明了位置语言模型是本文模型的一个特例。3)通过实验表明,基于本文模型的检索模型在检索性能方面要优于基于位置语言模型的检索模型。本文还进一步对模型中的参数进行了敏感度分析,主要分析了三个参数对这两个检索模型的影响。