基于统计语言模型和Passage特征的信息检索模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sky_ywt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索模型是对信息检索任务及实现方法的一种抽象描述。信息检索模型是信息检索理论研究的一个核心内容,因此对于它的研究有重要的理论意义和实用价值。另外,统计语言模型自从被应用到信息检索领域就被认为是优秀的信息检索模型框架。该模型框架已经被广泛地研究。passage是信息检索领域中被利用的有效语言学特征之一。本文主要研究对象是基于统计语言模型框架和passage特征的信息检索模型。具体地讲,本文研究主要内容如下:1.本文考察了经典信息检索模型及其扩展模型,分析了应用于信息检索领域的统计语言模型及其平滑方法。同时,本文讨论了passage的分类。然后,本文提出了一种新的信息检索模型──PJM。通过扩展Jelinek-Mercer平滑方法,该模型把passage特征成功地引入到了统计语言模型框架中。在TREC测试集上的实验结果表明,和传统的简单语言模型相比,新模型性能有了显著的提高。为了对模型进行实验,本文介绍了实验使用的平台:Lemur。2.本文进一步研究了如何在语言模型框架下更好地利用passage特征。本文分析了信息检索领域对passage特征研究的两个方向:关于passage形式的研究和如何利用已有passage的研究。此外,本文总结了两个研究方向的具体做法,为以后的相关研究奠定了基础。然后本文比较了别的学者提出的方法与新的PJM模型,用实验证明了在统计语言模型框架下综合passage级别和文档级别两者信息相对仅仅使用passage级别信息也可以产生检索效果的提升。3.本文通过结合不同平滑方法(Jelinek-Mercer和Dirchlet),在PJM模型基础上扩展出了三个变体模型。实验结果表明这三个新模型的检索效果也显著超越了原有的简单语言模型,同时与PJM模型检索性能相当。
其他文献
近年来随着我国经济的快速发展,供应链的各个环节也在迅速发生变化。其中物流中心在供应链中的作用日益重要,而拣货路径的长度是最直接影响物流中心效率的因素,因此,减小拣货路径
随着计算机网络的迅猛发展,Internet的安全问题日益严重,以SynFlood为代表的DoS攻击更是愈演愈烈,成为人们关注的焦点。本文在对现有DoS攻击方式及防御手段进行总结之后发现:
定位技术是无线传感器网络的关键技术之一,在很多应用领域中发挥着极其关键的作用。随着研究的深入和实际应用需求的扩展,三维无线传感器网络受到越来越多的重视,研究三维空间下
轻度认知障碍(MCI)是介于正常衰老和阿尔茨海默病(AD,老年痴呆)之间的一种中间状态,很容易转化为老年痴呆,因此MCI的早期研究是降低老年痴呆的关键,成为了当前的研究热点,具有重要的
在商场领域,客流量信息是其运作的一个重要因素。监测客流、研究客流、分析客流,形成决策,进而围绕客流进行定位,以各种手段吸引客流,可以有效的提高商场在行业中的竞争力。
随着卫星导航系统在军事领域和民用领域的广泛应用,对其提供的服务的性能要求也日益提高,因此评估卫星导航系统的服务性能是否满足应用的要求成为一个关键性的问题。为评价卫星
运动仿真技术是当前CAD研究和应用中的重要技术,本文研究基于虚拟装配模型的运动仿真技术,它是计算机图形学与机械学相结合的一个研究领域,也是机械设计技术与虚拟设计技术综合
ERP(企业资源计划)是整合了企业管理理念、业务流程、基础数据、人力物力、计算机硬件和软件于一体的企业资源管理系统,是当前多数企业普遍采用的管理信息系统。因此,ERP系统
信息化的发展步伐日益加快,而数据是信息化的生命线,必然要求对数据实施有效的保护措施。由于存储区域网络(SAN)具有管理方便、扩展性强、容错能力好、高可靠性、配置灵活、
公钥基础设施(PKI)利用数字证书为网络安全交易提供基本保障。由于私钥泄露或者证书所有者状态改变等原因,证书必须在其失效之前被废除。因此,需要建立一种撤销证书的查询机制,