论文部分内容阅读
随着互联网的快速发展,网上的信息数据呈指数级的速度迅猛增长。用户如何在短时间内获取自己所需信息变成为难题。信息检索是有效解决上述情况关键技术。它按一定方式组织信息,根据用户的信息需求从大数据中找出相关信息。其中,用户的信息需求大多表达为查询词,由于查询词往往比较简短并存在歧义,导致检索系统返回的信息与用户需求并不相关,造成检索的结果往往并不理想。为此,研究者使用查询扩展技术对查询进行重构,使其能更好地表达用户信息需求。查询扩展的一般过程是信息检索系统首先根据用户给出的初始查询返回结果给用户,再由用户人为手动或系统自动选择几个最符合查询意图的结果,检索系统根据上述结果重构查询,系统利用重构的查询进行再次检索,使检索结果更为符合用户的真是意图。但是许多查询扩展方法选取扩展词并未充分考虑词项之间以及词项与文档之间的相关性,使得查询扩展可能加入太多不相关信息并降低检索性能。基于此,本文利用Markov网络模型为词之间、文档之间的关联信息以及词与文档之间的映射建模,然后根据词项子空间和文档子空间的映射关系提取词团,用于查询扩展。具体实验方法是首先计算词之间的相关性和文档之间的相关性构造索引词空间和文档空间,并提出最大团概念,在上述两个空间中提取出最大词团和最大文档团,将最大词团映射到最大文档团中,最终的查询扩展阶段将最大词团分为两类:一类为文档依赖最大词团,另一类是非文档依赖最大词团,赋予文档依赖词团更大的权重。由于文档依赖的词团与查询更有可能表达同一个主题,可避免主题漂移。因此,本文的方法考虑了词之间的相关性,文档之间的相关性并将词和文档之间的映射信息加入查询扩展,使得扩展的信息更加相关。