结合语义的位置语言模型

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:ruifanglong198526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的四十年里,信息检索领域出现了很多经典的模型,诸如布尔模型、向量空间模型以及概率模型。随着Pnoet和Corft首次提出基于统计语言模型的检索模型,近十年来该模型得到了快速的发展。国内外许多学者都加入了这个领域的研究,做了大量有意义的工作,因此又陆续的提出了隐马尔科夫模型,统计翻译模型,风险最小化模型等。但是大多数检索模型都是基于词在文档中的频率,而未考虑词在文档中的位置关系。例如这样的两篇文档——包含了相同集合的词并且每个词在两篇文档中的出现频率都一样,唯一不同的是这些词在文档中摆放的位置顺序有所不同,那么对于大多数检索模型这两篇文档的检索得分是一样的。但若第一篇文档中查询词与查询词出现得更为邻近,第二篇则出现得更为疏远的话,那么显然第一篇文档理应获得更高的检索得分,而大多数检索模型都无法做到这点。基于这点出发,Lv和Zhai提出了一种位置语言模型,并成功的应用于信息检索,该模型最大的优势就是考虑了文档中词与词的位置关系。但该模型依然还存有缺陷:并未考虑到词与词之间的语义关系。因此本文在他们的工作基础上进行了改进,提出了一种结合语义的位置语言模型。具体来说本文的主要工作和创新点如下:1)提出了一种新的技术——“平滑互信息”,来度量两个词之间的转移概率。由于数据集中的词存在稀疏性,因此直接使用互信息来度量两个词的转移概率会造成大量的词对无法计算。本文则对互信息采用了一种平滑技术,使得数据集上几乎任意两个词都可计算出平滑互信息,从而计算出两个词的转移概率。更为重要的是,这种平滑技术遵循了词在数据集中的原始分布,并在附录中给出了这种平滑技术的理论证明。2)基于概率统计学以及互信息等相关理论,提出了一种结合语义的位置语言模型。本文给出了该模型中每个未知参数的估计思想以及估计方法,并且进一步对比了位置语言模型和结合语义的位置语言模型的异同点。最后证明了位置语言模型是本文模型的一个特例。3)通过实验表明,基于本文模型的检索模型在检索性能方面要优于基于位置语言模型的检索模型。本文还进一步对模型中的参数进行了敏感度分析,主要分析了三个参数对这两个检索模型的影响。
其他文献
医学超声图像和合成孔径雷达(Synthetic Aperture Radar,SAR)在成像过程中由于成像机理及设备或周围环境因素等影响,均存在着一种特有的呈斑点状的噪声—speckle(斑点)噪声。超声
半监督学习是目前机器学习与数据挖掘的研究热点,通过较少的监督信息(如标注样本点或成对约束信息)和大量的未标注数据提供的数据分布信息,能对数据集内的点进行正确归类。大量研
资源预留协议(RSVP)使用户可以在互联网上为多媒体应用程序请求不同质量的带宽服务。然而,RSVP协议并没有提供一个灵活的支持安全服务质量(QoSS)的机制。将资源预留协议(RSVP)扩展为
在项目反应理论(IRT)中,参数估计对于建设题库﹑考察被试﹑考察考试质量起着重要的作用。随着IRT的不断发展,产生了多种不同的参数估计方法。但随着模型的越来越复杂,已有的参数
近年来机器视觉技术已经十分广泛的应用在印刷品缺陷检测领域,但是随着人们对印刷品质量的要求提高,传统的印刷品缺陷检测已经很难满足印刷品工业的需要,要想提高印刷品缺陷
无线传感器网络技术作为新兴技术之一,近年来得到了迅速发展。无线传感器网络主要由布置在监测区域中大量的廉价微型传感器节点组成,实时监测传感器网络中的环境信息,在当今军事
流媒体相关服务已经成为互联网中的主流应用,采用P2P技术的流媒体应用在提高流媒体系统的可扩展性、并发性和健壮性的同时,却面临着大量挤占骨干网络,资源安全和内容版权难以
面对海外设备厂商的市场垄断和技术封锁,自主研发半导体设备既是国内半导体设备市场的迫切需求,也是国家意志的体现。本文从控制程序设计、运动性能优化、控制功能升级以及通
随着分布式交互仿真技术的不断发展,HLA(HighLevelArchitecture)成为继DIS(Distributed Interactive Simulation)之后出现的新一代分布式交互仿真标准。为了满足大规模复杂系
近年来,互联网的整体规模越来越大,作为搜索引擎采集模块的爬虫的工作压力与日俱增,即使最专业的搜索引擎服务提供商,如谷歌、百度,也无法保证所有页面的时效性。而就单个页