生物事件抽取联合模型研究

来源 :武汉大学 | 被引量 : 6次 | 上传用户:jerryzhang1805
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术的应用,越来越多的生物分子实验成果和临床医学的成果以文本的形式发表,使得该领域产生了海量的生物医学文献。这些文献虽然包含有大量的生物医学知识,但是它们都是以无结构的自由文本状态存在,难以为人类所利用。生物文本挖掘研究的目的在于综合运用自然语言处理、生物医疗信息、计算语言、人工智能技术,从生物医学文献中抽取丰富的生物实体之间的语义信息,构建结构化的知识库,供相关领域的人员使用。生物文本挖掘常规任务包括信息检索(Information Retrieval, IR),信息抽取(Information Extraction, IE),知识库构建和知识发现等。信息抽取包括有命名实体识别(Named Entity Recogniztion, NER)和名称实体标准化,以及实体关系抽取。生物事件抽取是生物信息抽取领域最近几年兴起一个研究热点。它是由日本东京大学的Tsujii实验室于2009年发起的一个共享评测任务,其目标是识别文本中与蛋白质实体有关的嵌套事件。在该任务中对生物事件给出具有普遍性且一致性的定义,并且提供了与任务一致的数据集及相关的评估标准。数据集中蛋白质名称已经标注,但是需要识别引起蛋白质动态变化或者状态改变的触发词以及它们之间嵌套的语义关系。由于任务本身的复杂性,事件抽取系统的性能目前为止还达不到应用的要求,因此还有进一步研究的空间。本文重点研究了基于联合模型(Joint model)的生物事件抽取方法,在此之前完成了事件抽取中触发词识别子任务和基于串行模型(Pipelined model)的事件抽取方法的研究。主要研究内容概括如下:(1)基于丰富特征的序列标注模型识别生物事件中的触发词。从生物文献中抽取生物事件对于生物领域的知识挖掘起着重要的作用,而事件触发词的识别性能直接影响到事件抽取性能。在本文中,我们把触发词识别看作一个序列标注问题,利用CRF模型进行预测。在模型中我们利用了丰富的词法特征与结构特征,包括词汇及其上下文特征、短语标记特征、词聚类特征、以及统计的词典特征,构造不同的基于词级CRF模型,用于生物事件触发词的标记。然后针对不同的触发词类型选择对应最优的标记模型,构造了一个混合CRF模型。实验结果在BioNLP-ST 2009语料库取得了60.9%的F-score,跟Baseline系统相比有明显优势。另外,该方法应用在BioCreativeⅣ的ChemistryNer任务评测中,分别在CDI在和CEM子任务中获得了第一和第二的成绩。(2)采用串行策略抽取生物事件。串行事件抽取策略是一类重要的事件抽取方法,因此在研究联合模型之前,我们尝试了用串行方法实现生物事件抽取。主要步骤包括:首先,基于依存分析的结果抽取目标依存序列,并在目标依存序列中获取候选的事件关系对;然后用SVM模型对候选事件关系对分类,分类过程包括两个子步骤:一个是将候选事件对分成9个类别的多分类过程,另一个子步骤是分别将这9个类别进行二分类判别它们是正样本还是负样本;最后用一个后处理步骤将分类后的事件关系对构成事件。在BioNLP-ST2013年的语料评估上,精度值高于所有公开评估的模型,但是总体性能上表现一般。(3)采用基于实体链标记的联合模型抽取生物事件。我们提出了一种简单而有效的联合模型抽取生物事件,同时识别事件的触发词和抽取事件边。在概念上,我们将嵌套的生物事件看作是一棵树,树的叶子节点到根节点的路径是蛋白质实体到最高嵌套层的触发词实体的实体链。由于实体之间的关系是一种语义关系,可以通过依存关系表现。因此我们先抽取包含实体链的依存序列,然后用序列标记模型对抽取的依存序列标记出其中的实体链。标记完成后,我们采用规则对标记结果进行了修正。最后根据标记出来的实体链,构建生物事件。实验结果在BioNLP-ST2013年的语料上获得了47.3%的F-score,与当年的的评测队伍中同样采用联合机器学习模型的Baseline系统相比,有明显的优势。并且对触发词的识别结果单独评估时,在2009和2013年的数据集上分别获得了68.03%和71.33%的F-score。(4)采用基于非精确搜索的结构预测联合模型抽取生物事件。结构预测方法将句子及句子中实体关系看作一个结构,用增量搜索方法联合预测这个结构。实验中采用了感知机算法训练模型,但是由于生物事件抽取任务本身的复杂性,使得算法搜索空间很大,精确的联合推导非常困难,因此在模型训练中采用了Beam Search非精确搜索算法解码。Beam search解码算法和提前更新策略可以降低搜索空间,使得整个结构预测模型成为可行。该模型特点是不仅可以使用局部特征,还可以充分考虑句子的全局特征。在BioNLP-ST数据集的评估中,我们获得了43.8%的F-score。相比前面基于实体链标记的联合模型,在整体性能上没有优势,但是在多论元事件的抽取上却有提高。因此,基于结构预测的联合抽取方法对于复杂生物事件抽取是有效的。
其他文献
近年来,云南省委、省政府高度重视社会救助工作,把其作为改善民生和促进经济社会科学发展的重要工作来抓,制度建设日趋完善,救助范围逐步扩大,救助水平不断提高,操作管理更加
数学复习课的学习仅体现在“复习”两字的表面意义显然是不够的,重要的是提供探究空间,变“小步走”,为“大步走”,激发探究欲望,变“单调型”练习为“趣味性”练习,提高学生探究能
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
最近出台的“二孩政策”旨在调整中国的人口结构,扭转人口老龄化趋势,减轻公共财政的福利支出压力。本文在三种不同的生育率假设下,通过建立人口模型,预测了到2050年公共财政在教
外科理论教学极为重要,为临床实习和工作打下了基础,是培养合格医疗工作者的关键环节,如何改进教学方法和进行教学反思是值得思考的问题,而教学反思对解决这一问题及促进教师
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着制造业的高速发展,环境问题日益严重,原材料资源消耗急剧增加,因此,对废旧产品的处理逐渐被各国所重视。制造商通过合理的再利用回收品提取它们的剩余价值,既可以满足环
水下图像在军事以及民用领域都有重要的应用,因此开展水下图像特征提取和识别技术研究具有实际价值和意义。水下目标识别过程通常由水下图像预处理、图像分割、特征提取以及
在乡村振兴战略背景下,全国广泛开展了田园综合体试点建设。文章通过梳理田园综合体演生与发展现状,总结出六大功能集群,量化分析了12个建成田园综合体的功能构成,并结合国外经验