论文部分内容阅读
随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的热点问题,而由于蛋白质相互作用关系对于生命科学有着特殊的重要意义,因而蛋白质相互作用关系抽取成为生物医学领域信息抽取的重点研究方向。 信息抽取主要包括关系抽取和事件抽取。本文首先从基于信息抽取模式的方法来解决蛋白质相互作用关系抽取问题,并将一种用于事件抽取的弱监督学习方法——种子式自扩张模式抽取算法引入到蛋白质相互作用关系抽取问题中。种子式自扩张模式抽取算法只需要提供少量蛋白质相互作用种子关系,就可以自动抽取模式,从而再抽取更多的蛋白质相互作用关系。因此,种子式自扩张模式抽取算法适用于训练语料较小,语义结构复杂的蛋白质相互作用关系抽取问题。 但是将种子式自扩张模式抽取算法直接应用于蛋白质相互作用关系抽取时存在一些问题,它需要选取具有代表性的典型种子,如果这些种子关系不具有代表性,则最后产生的模式集会有较大偏差;其次,该算法一般应用于事件抽取的槽信息抽取上,适合于抽取结构化信息,而对自由文本中的非结构化信息关系抽取缺乏一定的适应性。 为了解决以上问题,本文定义一种更适于处理自由文本的信息抽取模式表达式,并通过采用动态评估方法来选择信息抽取模式和蛋白质相互作用关系。每当增加新的蛋白质相互作用关系(信息抽取模式)时,都要重新评估信息抽取模式(蛋白质相互作用关系)的置信度,抛弃低置信度的信息抽取模式(蛋白质相互作用关系)。从而达到防止错误的累积的目的,更准确抽取蛋白质相互作用关系。 最后实现了一个从自由文本中抽取蛋白质相互作用关系的原型系统。该系统可以实现在PubMed中Medline文献摘要数据库抽取蛋白质相互作用关系。