论文部分内容阅读
自互联网出现之后,互联网在各领域发展迅猛,知识与信息呈指数增长。同时,互联网的知识泛滥使得互联网用户备受困扰。为了解决信息过载的问题,许多商用搜索引擎成为了信息检索的重要手段。用户通过搜索引擎,输入相关关键词就会得到包含关键词的信息。但是文档与查询词之间的不精确匹配影响了信息检索的效果。为了解决词不匹配问题,可以采用查询扩展的方法,根据统计信息或语义识别技术对关键词进行扩展。查询扩展常用技术方法如下:基于全局分析的查询扩展、基于局部分析的查询扩展、基于局部分析的查询扩展、基于语义词典的查询扩展等。全局分析和局部分析都是以查询词为中心机械匹配的查询方法,不能从根本上消除用户查询意图与检索的语义偏差;利用语义知识词典的查询扩展方法能消除语义偏差而且不需要大规模语料库的支持,缺点是非即时性,特别是在时效性比较强的领域表现的较为明显。通过吸收语义扩展和统计扩展的长处,本文章对查询扩展问题展开了一系列研究。本文的创新点在于以下2个方面:1.提出了一种新的计算词语相关度的算法,并在此基础上,设计了一种基于语义词典和局部分析的查询扩展算法。算法通过语义词典WordNet和局部分析技术获得扩展词之后,运用权重调节技术,将两种扩展词加以融合,得到更多的扩展词。另外,本文也解决了多查询词的问题,使得此算法的实用价值更高。2.设计了一种可以迭代计算词的相关度和短文本的相关度的算法并分析了算法的时间复杂度。在实验分析部分,通过计算相关系数,验证了算法对词、文本相关度的判断更符合人的判断。