基于词表示和深度学习的生物医学关系抽取

来源 :大连理工大学 | 被引量 : 11次 | 上传用户:AJGSUN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质关系抽取和药物关系抽取对于生物医学领域相关数据库的构建、生命科学研究、药物开发和疾病的防治都具有重要意义。目前,大量生物医学关系抽取方法的研究重点在于特征集合的选取和核函数的设计,经过十余年的发展,基于特征和核函数的方法已经相对成熟,提升空间变得有限。为了进一步提升性能,本文研究基于词表示和深度学习的抽取方法。深度学习能够建立更深层的关系抽取模型以提升抽取效果,而词表示将语义信息融合到词向量中,是深度学习的前提。本文主要贡献包括:针对生物医学领域文本的特点设计词表示模型,在传统词表示模型基础上,融合词形、词性、词干、句法块、生物医学命名实体这五类重要信息,增强词向量的语义表示能力,并在蛋白质关系抽取、药物关系抽取等任务上取得了较好的效果,验证了在词表示中融入词性、实体等丰富信息的有效性,为基于深度学习的关系抽取方法提供了良好的词表示基础。针对蛋白质二类关系抽取问题,克服传统方法依赖于特征和核函数的局限性,提出一种基于实例表示的抽取模型,该模型包含词向量、骨架特征、特征组合三个部分,在规模较大的语料上抽取效果达到了目前先进水平,从而验证了基于词表示和深度学习方法在蛋白质关系抽取问题上的有效性。该模型考虑了蛋白质关系实例的特点,以词向量作为输入,配合骨架特征和向量组合,从而在实例表示中融合丰富的语义信息。针对药物多类关系抽取问题,提出一种两阶段方法:在第一阶段,采用实例表示与句法特征相结合的方法,利用逻辑回归分类器,识别出药物关系正例;在第二阶段,利用长短期记忆网络将正例分成四种药物关系类型。为了提升第二阶段性能,从重要度、实现代价和计算代价这三个方面考虑了多种相关要素对长短期记忆网络的影响,通过实验发现,词向量、距离向量、词性向量和双层双向长短期记忆网络对于第二阶段分类的性能具有提升作用,也是本文两阶段药物关系抽取方法能够取得较好效果的重要因素。综上所述,本文针对蛋白质间二分类关系抽取和药物间多分类关系抽取,利用表示和深度学习等技术提出相应的抽取方法,在一定程度上克服了基于特征和核函数方法的局限性,取得了较好的效果。词表示和深度学习技术是近年来的研究热点,在生物医学文本挖掘领域的起步较晚,本文所提出的方法在生物医学关系抽取任务上取得了一定成果,验证了其有效性,并揭示了基于词表示和深度学习方法在生物医学文本挖掘领域具有广阔的研究空间,值得在未来工作中继续探索。
其他文献
压缩感知是一种全新的信号获取和处理框架,其理论和技术的发展将对数字信号的获取方式,分析技术和处理方法等研究领域及相关应用领域产生深远的影响。目前,压缩感知正从理论
信息可视化是将繁复的数据图形化的科学,主要是通过人的视觉来理解数据。因此如何更好地可视化来帮助视觉理解数据,是一个非常重要的问题。近年来,视觉感知(Visual Perceptio
在新时期电影众多流派中,以抚慰、疗愈民众心灵创伤为己任的日本治愈系电影产生着日益重要的影响,虽然距离明确的电影类型尚有差距,但从类型化角度而言,已经形成了较为成熟的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
民间叙事的结构主义研究充满了张力与争议。通过聚焦于与结构主义密切相关的结构与形式、共时形态与历时意义研究的争论,简要梳理了结构主义理论及其对中国民间叙事研究的影
近年来,计算机视觉中的行人再识别问题受到了研究者的重点关注,已成为一个新兴的研究领域。目前,行人再识别技术存在许多挑战,特别是重排序或后排序优化问题。行人再识别问题
中国是一个文明古国,五千年的历史遗址广布华夏大地.人们凭借着这些遗址研究先人们的生活环境和社会成就,寻找着文明的源头.建立遗址博物馆是保护遗址,向人们展示遗址的行之
伦坡拉盆地自下而上发育始新统牛堡组牛二中亚段、牛二上亚段及牛三下亚段3套烃源岩。基于钻井测试资料、地震资料及含烃流体包裹体测试分析,利用盆地模拟技术对伦坡拉盆地热
云计算作为一种新型的计算模式,为组织和个人提供了高效、廉价和专业的信息服务及相关的基础设施。云存储是云计算平台提供的诸多服务中应用最为广泛的服务之一然而,在云存储