基于领域本体的生物医学文本检索

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:computer2900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来随着生物医学科学文献的增多生物医学信息检索已经得到了越来越多的研究人员的关注。如MEDLINE数据库2009年已经包含了超过17,000,000的生物医学文献。仅在2008年就有超过600,000的新文章被新增进数据库。从如此巨大的科学知识文献库中检索相关信息变得越来越重要,也越来越具有挑战性。这对高效的生物医学信息检索技术提出了迫切的需求。生物医学文本通常包含大量的专业词汇以及缩写,存在着大量同义词、近义词现象。这就使得传统的、基于单词匹配的文本信息检索方法在医学领域准确率变得非常差,因此需要研究基于语义的生物医学文本检索方法。本文主要研究基于本体的生物医学文本信息检索,探索基于语义相似度的生物医学信息检索方法。论文首先是对生物医学信息检索的发展及现状进行了回顾,分析比较了基于传统文本检索模型在生物医学信息检索中的性能。研究了基于生物医学本体的语义相似度,本文采用MeSH作为本体。根据检索任务的特点,创新性地提出了非对称语义相似度模型。由于MeSH医学主题词并不能很好的涵盖文章的内容,本文研究将语义相似度和传统文本检索模型方法进行融合,实验结果表明语义相似度和传统文本检索模型结合的方法取得了显著的性能提高。本文的主要贡献包括:第一,分析和比较了几种传统文本检索模型在生物医学文本信息检索中在性能上的差异,为后续研究选定基准参照。第二,研究了基于生物医学本体MeSH的语义相似度方法,之后根据检索任务的特点创新性地提出了非对称语义相似度方法,并在获取MeSH主题词方面提出了两种方法,一是利用MeSHUp工具,二是利用伪相关反馈技术。实验结果表明非对称语义相似度较对称语义相似度检索性能有所提高。第三,研究了传统文本检索模型方法与语义相似度相结合的方法,提出了线性加权以及重排序(reranking)这两种方法。实验结果表明语义相似度和传统文本检索模型结合的方法取得了显著的性能提高而线性加权方法能够取得更佳的检索性能。
其他文献
随着信息技术,特别是因特网的高速发展,计算机病毒的传播速度和影响范围都在不断增加,计算机病毒对计算机安全构成的威胁也日益突出。然而,传统的病毒检测方法,已经不能对抗
软件定义网络(Software Defined Network,SDN)是一种把控制层和数据层相分离的新型网络管理架构。控制层上的控制器集中管理数据层的网络设备,数据层中的网络设备仅仅根据控
计算机与信息技术的飞速发展,使人们能以更快、更廉价的方式获取和存储数据,从而也使得存储的数据的数量飞速增长。这些数据蕴藏着许多对我们的工作有重要指导意义的信息。数
部队的经常性思想政治工作是部队思想建设的基础,是最普遍、最经常的工作。但由于新干部在工作中缺乏经验,采取的方法欠科学,直接影响工作进展的效果和质量。因此运用现代信息技
解决各类数据库系统的异构问题是80年代中期以来数据库界的研究热点,并提出了很多的解决方案。对地理上分布的多个异构数据库,在尽可能少地影响其本地自治性的基础上,实现异构数
网络空间信息系统是当今GIS发展的必然趋势,目前的研究工作主要集中在利用Internet技术在Web上发布空间数据提供给用户浏览和使用。随着Web上空间数据量的快速增加,以及各个W
本文的重点在于研究能够适应上述并行事务处理系统的数据存储分配策略。本文首先描述了数据库并行事务处理系统的整体结构和工作原理。然后,通过考虑由关系之间的关联而导
虽然近几年来网络速度有了很大的提高,但是由于接入Internet 的用户数量急剧增加以及Web 服务和网络的固有延迟,使得网络越来越拥挤,用户浏览网页时经常会出现网页打开过慢的
随着网络的普及,Linux系统在网络服务器中得到广泛使用,它的安全性越来越受到人们的重视。 本论文首先研究了Linux系统以及运行于该系统的应用程序漏洞,分级讨论了防御对L
随着多媒体、通信技术的发展和普及,数字图像的应用和传播也越来越广泛。由于图像包含的丰富内涵远非文本所能表达,所谓“一幅图像胜过千言万语”,图像所包含信息的分析和获取成