论文部分内容阅读
随着网络资源的全球化,不同语言国家、民族的互联网用户飞速增长。伴随着不同语言使用者对网络需求的日益加剧并且由于语言的多样性使得跨语言信息检索成为信息检索领域的研究热点。我们可以通过跨语言信息检索系统使用某种语言去查询用另外一种或若干种语言书写的文档。显然,这对于那些不擅长外语的用户具有重要意义。目前,汉英方面的跨语言信息检索已经取得很大进展。而蒙古语的相关工作却少之又少。蒙古族作为我国最重要的少数民族之一,蒙古语相关的信息检索研究具有特殊意义。由于用户的输入的有限性以及系统的成熟度有限,系统有时很难返回给用户需要的文档。因此,对跨语言信息检索领域中的查询消歧和查询扩展技术的研究,就具有十分重要的实际意义。本文的主要研究内容有:1.使用蒙汉双语平行语料库与蒙汉词典统计了一个蒙汉概率词典,并通过该概率词典与检索词之间的互信息对查询项进行翻译消歧。实验结果表明:本文提出的方法相比选择双语词典第一个翻译结果而言性能提升了6.8%。相比双语概率词典的方法提高了0.6个百分点。2.分析了一些传统信息检索模型,并提出了一种改进的权重计算算法,该算法首先对所检索文档进行归类,识别出查询词所属领域类别,根据查询词的所属类别对文档赋予不同的权重。并根据识别结果对查询词的各项赋予不同的权值以计算各文档得分。返回结果最终可以更好的满足用户对不同领域文档的关注程度。3.分析了基于全局文档的查询扩展、基于用户相关反馈的查询扩展和基于伪相关反馈(基于局部文档)的查询扩展技术,并分析了各种方法的优劣。在此基础上,本文提出了一种基于局部共现与分类主题相结合的查询扩展方法。该方法首先使用统计信息对用户输入的查询项进行分类识别,然后根据不同识别结果对不同类别文档赋予不同的权重,最后结合局部共现技术对用户输入的查询项进行扩展。实验结果表明:本方法相比基于词频统计的查询扩展方法提高了5.3个百分点。相比基于词共现的查询扩展方法提高了3.8个百分点。