基于文档团的Markov网络检索模型

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:husong724
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网上的信息数据呈指数级的速度迅猛增长。用户如何在短时间内获取自己所需信息变成为难题。信息检索是有效解决上述情况关键技术。它按一定方式组织信息,根据用户的信息需求从大数据中找出相关信息。其中,用户的信息需求大多表达为查询词,由于查询词往往比较简短并存在歧义,导致检索系统返回的信息与用户需求并不相关,造成检索的结果往往并不理想。为此,研究者使用查询扩展技术对查询进行重构,使其能更好地表达用户信息需求。查询扩展的一般过程是信息检索系统首先根据用户给出的初始查询返回结果给用户,再由用户人为手动或系统自动选择几个最符合查询意图的结果,检索系统根据上述结果重构查询,系统利用重构的查询进行再次检索,使检索结果更为符合用户的真是意图。但是许多查询扩展方法选取扩展词并未充分考虑词项之间以及词项与文档之间的相关性,使得查询扩展可能加入太多不相关信息并降低检索性能。基于此,本文利用Markov网络模型为词之间、文档之间的关联信息以及词与文档之间的映射建模,然后根据词项子空间和文档子空间的映射关系提取词团,用于查询扩展。具体实验方法是首先计算词之间的相关性和文档之间的相关性构造索引词空间和文档空间,并提出最大团概念,在上述两个空间中提取出最大词团和最大文档团,将最大词团映射到最大文档团中,最终的查询扩展阶段将最大词团分为两类:一类为文档依赖最大词团,另一类是非文档依赖最大词团,赋予文档依赖词团更大的权重。由于文档依赖的词团与查询更有可能表达同一个主题,可避免主题漂移。因此,本文的方法考虑了词之间的相关性,文档之间的相关性并将词和文档之间的映射信息加入查询扩展,使得扩展的信息更加相关。
其他文献
人体运动分析是当代计算机视觉和生物学相结合的一项重要技术,在军事国防、视频监控、人机交互、医疗诊断以及商业等领域均有广泛的应用。目前,国内外学者对该领域做了大量的研
本文的研究内容是国家自然科学基金“图像颜色和形状特征绑定的脑认知过程及模型研究"(ID:61070077)中的重要组成部分,旨在对彩色图像颜色和形状特征捆绑模型的构建方法进行研
在“互联网+”的大趋势下,Web服务作为软件开发、业务协作和商业模式创新不可或缺的“数字胶水”,已成为Web上支持应用程序间互操作、构建分布式应用系统以及程序间“交流”和
微车NVH性能是微车品质诊断中的一个重要指标,而微车主减速器故障的振动又是微车的主要的振动和噪声的来源,因此可以通过传感器来获取主减速器的振动信号,然后对主减速器的振
路径搜索是计算机游戏中最为常见的任务之一,搜索算法的质量很大程度上影响着游戏的趣味性与可玩性。A*算法是最典型的启发式搜索算法,在路径确实存在的情况下,它能够确保得到一
森林作为全球生态系统的重要组成之一,在生态、社会和经济上给人类创造了无穷价值。森林火灾的频繁发生给森林防护工作带来了很大压力,也严重威胁到了人类的生命财产安全。世
随着计算机网络技术和数字技术在全球范围内的广泛推广和使用,图像、视频等多媒体数字作品在网络上变得非常盛行。虽然数字作品在网络上传播方便,但是它有一些不安全性因素存在
汽车驾驶仿真系统是一种能够模拟三维虚拟环境及实际汽车驾驶情况的系统,对驾驶者的驾驶技能的提高、驾驶经验的补充及交通安全的维护有着极大的促进作用,其节能、安全、高效
SOA是“面向服务的体系架构”,它可以根据需求通过网络对松散耦合的粗粒度应用组件进行分布式部署、组合和使用。SOA架构是一种粗粒度、开放式、松耦合的服务结构,要求软件产
随着计算机和互联网技术的蓬勃发展,网络中信息量成指数增长,互联网步入大数据时代,信息过载问题日益明显。个性化推荐引擎能够帮助用户从海量的数据中辨别、过滤信息,主动给