生物医学文献中的蛋白质相互作用关系抽取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuweiyangking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的热点问题,而由于蛋白质相互作用关系对于生命科学有着特殊的重要意义,因而蛋白质相互作用关系抽取成为生物医学领域信息抽取的重点研究方向。  信息抽取主要包括关系抽取和事件抽取。本文首先从基于信息抽取模式的方法来解决蛋白质相互作用关系抽取问题,并将一种用于事件抽取的弱监督学习方法——种子式自扩张模式抽取算法引入到蛋白质相互作用关系抽取问题中。种子式自扩张模式抽取算法只需要提供少量蛋白质相互作用种子关系,就可以自动抽取模式,从而再抽取更多的蛋白质相互作用关系。因此,种子式自扩张模式抽取算法适用于训练语料较小,语义结构复杂的蛋白质相互作用关系抽取问题。  但是将种子式自扩张模式抽取算法直接应用于蛋白质相互作用关系抽取时存在一些问题,它需要选取具有代表性的典型种子,如果这些种子关系不具有代表性,则最后产生的模式集会有较大偏差;其次,该算法一般应用于事件抽取的槽信息抽取上,适合于抽取结构化信息,而对自由文本中的非结构化信息关系抽取缺乏一定的适应性。  为了解决以上问题,本文定义一种更适于处理自由文本的信息抽取模式表达式,并通过采用动态评估方法来选择信息抽取模式和蛋白质相互作用关系。每当增加新的蛋白质相互作用关系(信息抽取模式)时,都要重新评估信息抽取模式(蛋白质相互作用关系)的置信度,抛弃低置信度的信息抽取模式(蛋白质相互作用关系)。从而达到防止错误的累积的目的,更准确抽取蛋白质相互作用关系。  最后实现了一个从自由文本中抽取蛋白质相互作用关系的原型系统。该系统可以实现在PubMed中Medline文献摘要数据库抽取蛋白质相互作用关系。
其他文献
近年来,随着RFID技术的快速发展,RFID技术在应用领域的研究也蓬勃开展,使用RFID技术进行室内定位就是研究领域之一。定位技术根据应用地理范围不同,分为室外定位技术和室内定位技
基于内容的图象检索技术是近年来国内外在图象数据库研究中出现的一个新热点问题。本文围绕图象特征提取和图象相似性度量两个问题展开论述。以Gabor基小波提取图象特征理论
基于相似度匹配的移动社交网络(PMSN)在移动设备日益普及的今天,其应用越来越广泛,针对它的相关研究也越来越热门。而在相似度匹配的过程中,对于用户个人属性的隐私保护和对
面向开放域的问答系统是自然语言处理领域中最具有挑战性的热点研究问题之一。随着互联网的飞速发展与普及,信息量的急速膨胀,有效查找和利用这些信息的迫切需求使得信息检索与
随着网络的普及,丰富多彩的网络资源给人们的生活、工作以及学习带来了巨大的方便。然而,信息数量庞大、排列无序以及垃圾信息的干扰等都阻碍着人们充分利用网络资源。为了使
数据挖掘是在海量的数据中发现事先未知的、隐含的且能被人们利用的模式和关系,这些关系可以指导人们对未来的行为进行预测。在现实生活中,我们经常遇到大量的高维数据,例如商场
近年来,低功耗广域网(LPWAN)技术越来越多的用于城市智慧抄表,无人机通信,基础民用设施监测等领域。LPWAN技术是一种非常具有吸引力的技术,它使得低成本的设备通过几百bps-几十kbps
基于复用的软件开发可以有效地提高软件开发的质量和效率。构件技术在软件复用中扮演着重要角色。软件构件库是支持软件复用的基础设施,在很大程度上决定着软件复用成功与否
随着Internet技术的高速发展,网络安全问题变得越来越敏感和重要,攻击者攻击手段和技术的日益复杂化、更具隐蔽性和分布性等特点,使得对入侵意图的识别变得困难。冗余的、无
Blog是一种流行的个人媒体。它承载了大量有价值的信息,并且在互联网中的地位越来越重要,已经成为人们日常生活和工作中不可或缺的一部分。然而由于blog与传统的网页的信息特点