论文部分内容阅读
在信息检索系统的运用过程中,由于一般用户无法提出完整规范信息的查询式,很容易导致查询漂移的产生。为了解决这个问题,查询扩展技术应运而生,但是发展到今天该技术还没有真正成熟。其根本原因是以往的扩展方法只是机械的通过共现或者仅仅利用某种资源对查询中的关键词进行孤立的扩展,没有从根本上解决问题。只有从语义的层面上对原查询进行分析,根据分析结果来进行查询扩展才能从根本上解决根本问题。本课题对现有的查询扩展方法进行了深入研究和分析,结合前人研究成果本文提出了一种基于互信息的语义查询扩展算法。此方法结合大规模通用语料库的统计信息和根据语言学知识基于语义的扩展词构造两种扩展方式,从来源于生活的文档和人工生成的语义词典两种资源选取扩展词,结合扩展词与原查询词在语义词典的相似度以及在文档集中的的互信息给扩展词赋综合权值,根据权值的大小设定阈值作为扩展词的选择依据,最终得到新的查询式。由于一般用户只对搜索引擎中的前若干条返回信息感兴趣,所以提高返回文档的前若干条的查准率有一定的实用价值,于是在本课题中加入了基于文档重构的返回文档重排序模块。最后,实现了本课题的算法,并做了相应的实验。由对比实验结果可知,利用本课题提出的算法检索性能MAP(Mean Average Precision)和Prec@20都有明显提高。本文算法在多数情况下,提高了检索质量,本文提出的算法有一定的实用价值。