基于领域本体的生物医学文本检索

来源 :电子科技大学 | 被引量 : 1次 | 上传用户：computer2900

【摘要】

：

近几十年来随着生物医学科学文献的增多生物医学信息检索已经得到了越来越多的研究人员的关注。如MEDLINE数据库2009年已经包含了超过17,000,000的生物医学文献。仅在2008年

【作者】

：

孙贶恺

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2013年01期

【关键词】

：

生物医学信息检索本体 MeSH 语义相似度非对称

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几十年来随着生物医学科学文献的增多生物医学信息检索已经得到了越来越多的研究人员的关注。如MEDLINE数据库2009年已经包含了超过17,000,000的生物医学文献。仅在2008年就有超过600,000的新文章被新增进数据库。从如此巨大的科学知识文献库中检索相关信息变得越来越重要，也越来越具有挑战性。这对高效的生物医学信息检索技术提出了迫切的需求。生物医学文本通常包含大量的专业词汇以及缩写，存在着大量同义词、近义词现象。这就使得传统的、基于单词匹配的文本信息检索方法在医学领域准确率变得非常差，因此需要研究基于语义的生物医学文本检索方法。本文主要研究基于本体的生物医学文本信息检索，探索基于语义相似度的生物医学信息检索方法。论文首先是对生物医学信息检索的发展及现状进行了回顾，分析比较了基于传统文本检索模型在生物医学信息检索中的性能。研究了基于生物医学本体的语义相似度，本文采用MeSH作为本体。根据检索任务的特点，创新性地提出了非对称语义相似度模型。由于MeSH医学主题词并不能很好的涵盖文章的内容，本文研究将语义相似度和传统文本检索模型方法进行融合，实验结果表明语义相似度和传统文本检索模型结合的方法取得了显著的性能提高。本文的主要贡献包括：第一，分析和比较了几种传统文本检索模型在生物医学文本信息检索中在性能上的差异，为后续研究选定基准参照。第二，研究了基于生物医学本体MeSH的语义相似度方法，之后根据检索任务的特点创新性地提出了非对称语义相似度方法，并在获取MeSH主题词方面提出了两种方法，一是利用MeSHUp工具，二是利用伪相关反馈技术。实验结果表明非对称语义相似度较对称语义相似度检索性能有所提高。第三，研究了传统文本检索模型方法与语义相似度相结合的方法，提出了线性加权以及重排序(reranking)这两种方法。实验结果表明语义相似度和传统文本检索模型结合的方法取得了显著的性能提高而线性加权方法能够取得更佳的检索性能。

其他文献

基于计算机免疫的病毒检测研究

随着信息技术,特别是因特网的高速发展,计算机病毒的传播速度和影响范围都在不断增加,计算机病毒对计算机安全构成的威胁也日益突出。然而,传统的病毒检测方法,已经不能对抗

学位

计算机病毒病毒检测计算机免疫免疫算法检测器

面向SDN控制器的DDoS攻击检测与防御技术研究

软件定义网络(Software Defined Network,SDN)是一种把控制层和数据层相分离的新型网络管理架构。控制层上的控制器集中管理数据层的网络设备,数据层中的网络设备仅仅根据控

学位

SDN控制器DDoS攻击改进信息熵动态阈值源IP信誉

基于BP网络的卷烟销售违规预测方法研究

计算机与信息技术的飞速发展,使人们能以更快、更廉价的方式获取和存储数据,从而也使得存储的数据的数量飞速增长。这些数据蕴藏着许多对我们的工作有重要指导意义的信息。数

学位

数据挖掘分类人工神经网络BP算法

粗糙集在新兵思想政治工作专家系统中的应用研究

部队的经常性思想政治工作是部队思想建设的基础，是最普遍、最经常的工作。但由于新干部在工作中缺乏经验，采取的方法欠科学，直接影响工作进展的效果和质量。因此运用现代信息技

学位

专家系统知识库粗糙集约简属性重要度

基于COM/DCOM的异构数据库中间件的研究与实现

解决各类数据库系统的异构问题是80年代中期以来数据库界的研究热点，并提出了很多的解决方案。对地理上分布的多个异构数据库，在尽可能少地影响其本地自治性的基础上，实现异构数

学位

异构数据库中间件COMDCOMMFC组件化程序

空间信息共享模型研究与应用

网络空间信息系统是当今GIS发展的必然趋势,目前的研究工作主要集中在利用Internet技术在Web上发布空间数据提供给用户浏览和使用。随着Web上空间数据量的快速增加,以及各个W

学位

空间信息空间信息共享多Agent技术空间数据库FIPA ACL

面向并行事务处理的存储分配策略研究与实现

本文的重点在于研究能够适应上述并行事务处理系统的数据存储分配策略。本文首先描述了数据库并行事务处理系统的整体结构和工作原理。然后，通过考虑由关系之间的关联而导

学位

并行事务处理数据存储划分属性存储分配策略

Web预取中的数据挖掘研究

虽然近几年来网络速度有了很大的提高,但是由于接入Internet 的用户数量急剧增加以及Web 服务和网络的固有延迟,使得网络越来越拥挤,用户浏览网页时经常会出现网页打开过慢的

学位

数据挖掘关联规则Web 预取预取模型兴趣度

Linux系统安全性研究及其新型Sniffer设计与实现

随着网络的普及,Linux系统在网络服务器中得到广泛使用,它的安全性越来越受到人们的重视。本论文首先研究了Linux系统以及运行于该系统的应用程序漏洞,分级讨论了防御对L

学位

Linux系统安全NFS文件系统嗅探器防火墙

基于图像的林业信息获取技术及其应用研究

随着多媒体、通信技术的发展和普及，数字图像的应用和传播也越来越广泛。由于图像包含的丰富内涵远非文本所能表达，所谓“一幅图像胜过千言万语”，图像所包含信息的分析和获取成

学位

图像处理信息获取模式分类支持向量机遥感图像计算机辅助植物识别二部图分类法林业

基于领域本体的生物医学文本检索

其他学术论文