论文部分内容阅读
跨语言信息检索是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术。研究目的是希望在信息时代,克服语言壁垒,提供跨语言的文献信息检索服务。查询翻译是跨语言信息检索的主流方法,但由于查询的语义结构松散,并且语境狭小,因此,伴随翻译不可避免地产生的歧义性问题较为突出。针对这个问题,提出了相当多的消歧方法,包括基于平行语料库的翻译技术、基于词的共现技术的消歧方法、查询扩展、词组翻译等。
基于共现技术的消歧方法通过统计提问词的各个译文与查询中其他词在语料库中的共现频率,并进行比较,将共现频率高的译文可代替该提问词以便翻译成目标查询。由于该方法实现方便并且通用性很高,因此成为一个重要的研究课题。
本文的主要工作包括:(1)通过对几个具有典型性的基于词共现技术的消歧方法的分析和研究,总结出了一些具有启发意义的原则和经验,其中包括采用概率化方法和兼顾全局性问题。(2)然后,通过一个从贪心算法衍生出的算法研究最大相关性原则,指出它与概率化方法的矛盾性。为了更好地发挥概率化方法的作用,本文提出了“概率加权平均原则”,并在此基础上设计了新的算法且详细给出了求解的方法。(3)通过实验,验证了“概率加权平均原则”的有效性,并且与其他方法相比,准确性有较为明显的提高。(4)另外本文也探讨了其他翻译技术与新算法相结合后的效果,实验结果表明采用查询扩展技术可以一定程度上改进新算法的准确性。