论文部分内容阅读
近几十年来随着生物医学科学文献的增多生物医学信息检索已经得到了越来越多的研究人员的关注。如MEDLINE数据库2009年已经包含了超过17,000,000的生物医学文献。仅在2008年就有超过600,000的新文章被新增进数据库。从如此巨大的科学知识文献库中检索相关信息变得越来越重要,也越来越具有挑战性。这对高效的生物医学信息检索技术提出了迫切的需求。生物医学文本通常包含大量的专业词汇以及缩写,存在着大量同义词、近义词现象。这就使得传统的、基于单词匹配的文本信息检索方法在医学领域准确率变得非常差,因此需要研究基于语义的生物医学文本检索方法。本文主要研究基于本体的生物医学文本信息检索,探索基于语义相似度的生物医学信息检索方法。论文首先是对生物医学信息检索的发展及现状进行了回顾,分析比较了基于传统文本检索模型在生物医学信息检索中的性能。研究了基于生物医学本体的语义相似度,本文采用MeSH作为本体。根据检索任务的特点,创新性地提出了非对称语义相似度模型。由于MeSH医学主题词并不能很好的涵盖文章的内容,本文研究将语义相似度和传统文本检索模型方法进行融合,实验结果表明语义相似度和传统文本检索模型结合的方法取得了显著的性能提高。本文的主要贡献包括:第一,分析和比较了几种传统文本检索模型在生物医学文本信息检索中在性能上的差异,为后续研究选定基准参照。第二,研究了基于生物医学本体MeSH的语义相似度方法,之后根据检索任务的特点创新性地提出了非对称语义相似度方法,并在获取MeSH主题词方面提出了两种方法,一是利用MeSHUp工具,二是利用伪相关反馈技术。实验结果表明非对称语义相似度较对称语义相似度检索性能有所提高。第三,研究了传统文本检索模型方法与语义相似度相结合的方法,提出了线性加权以及重排序(reranking)这两种方法。实验结果表明语义相似度和传统文本检索模型结合的方法取得了显著的性能提高而线性加权方法能够取得更佳的检索性能。