多类型微生物交互的关系抽取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:kobe20060121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物之间存在多种交互关系,如共生、竞争、寄生等各种类型的交互。研究微生物之间的交互关系是理解微生物群落的结构和功能的前提和基础。大量关于微生物交互关系的研究成果发表在生物医学文献中,从这些无结构化的文本中抽取出相应的微生物交互信息,并组织成结构化的知识库,是一种有效的研究微生物交互关系的方法。现有文本挖掘的工作简单地将微生物之间的关系定义为有或无两种,而忽略了微生物之间丰富、细致的关系类型。因此,本研究将微生物关系抽取建模为多类型的关系抽取任务,并提出相应的关系抽取模型用于有效的微生物关系抽取,结果描述了更丰富的微生物交互关系信息。具体地,本文的主要工作如下:(1)提出一种基于集成深度学习模型的多类型微生物交互关系抽取方法。根据物种交互关系和文献中的语义描述概括了四种微生物交互关系:积极关系、消极关系、关联关系、无关系。进而标注了用于多类型微生物交互关系抽取的语料库(MTMICorpus),并结合命名实体识别工具构建了无标签的预测语料库来验证本文模型的有效性。以此为模型训练基础,我们提出了一种集成深度学习模型用于多类型微生物交互关系抽取。该模型将文本数据经过词向量映射后转换为向量表示并加入位置特征作为输入,使用三个基于Bi-LSTM的子模型独立做预测判断,最后对三个子模型的结果用投票的方法做出最终决策。与传统的机器学习方法及常用的深度学习方法相比,该方法取得了较好的效果。(2)提出一种基于迁移学习的多类型微生物交互关系抽取方法。为了进一步提升微生物关系抽取的效果,本文尝试使用迁移学习模型以借助外部领域知识提升文本建模的效果。具体的,我们测试三种不同的本文预处理模型,BERT、BioBERT、和SciBERT模型,用于文本的初始表示,并通过微调训练微生物关系抽取任务。实验结果表明基于SciBERT的模型取得了理想的微生物关系抽取结果。模型应用到来自PubMed的大规模无标签数据,进行微生物多类型关系预测。通过实体标准化处理,共得到了 2855条微生物多类型交互关系。本文主要实现了从生物医学文献中自动抽取多类型微生物交互关系的任务,为复杂微生物交互关系网络的重建提供了基础。
其他文献
互联网的快速发展在给人们带来便利的同时,也给人们的生活带来诸多安全隐患,其中信息安全尤为重要。为提高传输信息的安全性,保护个人隐私,很多学者在从事隐写技术研究,它是利用载体的冗余,将秘密信息嵌入到载体中通过公共信道进行传输,避免第三方的怀疑,从而实现秘密信息的传递。图像是隐写常用的载体之一,传统的以图像为载体的隐写术都是以单张图像作为载体,但单张图像作为载体隐写容量有限。为适应实际需求,确保秘密信
学位
抗生素耐药形势严峻,抗生素发展遇到了前所未有的挑战。了解抗生素耐药作用机制对于有效跟踪耐药性传播、优化治疗方法以及进行新药物研发至关重要。大量关于抗生素耐药性研究成果存在于生物医学文献中,使用文本挖掘相关方法自动从文本中获取信息有效降低了知识获取成本并提高了工作效率。本文将抗生素耐药性信息抽取建模为生物医学事件抽取任务,以期从生物医学文本中自动获取抗生素耐药作用机制信息。生物医学事件抽取主要由生物
学位
随着大数据时代的到来,互联网图像资源迅猛增长,如何快速正确地从海量的图像数据中检索出用户所需的图像成为亟需解决的一大难题。在大规模图像检索的背景需求下,基于内容的图像检索技术利用图像自身的语义信息,摈弃以往繁杂的人工文本标注,提高了图像检索性能,但在基于内容的图像检索方法中,图像往往由高维的特征矢量表示,而这又带来了大规模图像特征存储量大,索引难等新问题。近年来,在大规模图像检索中引入哈希的检索方
学位
近年来,用户情感分析在个性化推荐系统中体现出越来越重要的地位,各种各样的垂直场景的移动应用极大丰富了人们社交、娱乐和学习的方式。通过手机拍照,然后配上一段合适的文案来分享和记录生活,更是成为了当代人们一种新的社交方式。基于拍照配文这一特定的场景中进行用户情感分析,能够提供更为精准的基于情感需求的个性化推荐服务。但目前针对拍照场景中的用户情感分析还较少,已有的图像描述生成任务是对进行照片内容客观的描
学位
建筑物三维模型是地球空间信息的重要组成部分,也是组成“数字城市”的关键所在,在诸如城市规划、三维导航、文化遗产保护等领域得到了广泛的应用。而随着激光雷达技术的不断发展,点云数据尤其是机载激光雷达扫描数据已经成为继矢量地图和影像数据之外的第三类重要的时空数据,其本身蕴含的信息具有二维地图和影像无可比拟的优越性。目前,根据建筑物点云数据进行建筑物三维重建是摄影测量、计算机图形学、计算机视觉和遥感社区中
学位
学习分析中学习者的学业成绩预测有利于教师进行教学决策,并采取教学干预以提升学生成绩。当前该领域主要是通过学习者的人口学信息和行为特征来预测学业成绩,忽略了文本数据所蕴含的情感与学业成绩之间的关系。因此,本文尝试利用学习情感进行学业成绩预测。具体而言,本文首先识别文本所蕴含的情感极性,然后从情感角度来预测学业成绩。为提升情感识别准确性,本文加入与学习行为相关的主题文本,包含“教师授课”、“获得证书”
学位
文本关键词抽取是从文本中把能代表该文本内容的词或短语抽取出来的一种自然语言处理技术,它是自然语言处理领域较为重要的一个研究方向,在信息检索、图书馆学、情报学等领域都有重要的实际应用价值。尤其是进入二十一世纪,随着移动互联网等信息技术的快速发展,文本类型的数据呈现出指数增长的态势。对于企业和一些组织而言,这些文本数据具有极大的潜在应用价值,然而如何快速理解、利用这些文本数据是当前企业面临的一个重大实
学位
随着自然语言处理的发展,开放领域的问答成为越来越重要的研讨课题,它基于用户的自然语言提问,从大批候选文本中精准地找到答案,而面向开放领域问答系统的机器阅读理解技术成为其中的一个热门研究方向。机器能够更准确的理解人类文本语言,从而去构建开放领域的问答系统、自动化阅读理解评价系统以及电子化答疑系统等。这对于学习分析领域的研究,辅助教师进行答疑、阅卷、学习行为干预,帮助学生进行成绩预测和更高效的学习有着
学位
虚拟学习社区角色分类旨在探究虚拟学习社区交互网络中不同类别的学习者在协作式知识构建网络中的行为特征和其所处位置对知识构建过程的推进作用。目前,以MOOC为主的异步式虚拟学习社区中,多数课程存在学习者众多,但学习者参与讨论式知识构建活动的活跃度不高的情况。现有的虚拟学习社区角色划分方法主要有:机器学习方法、内容分析方法、数学分析方法和以凝聚子群、中心性方法为主的社会网络分析方法。上述方法主要存在以下
学位
当今时代信息爆炸式增长,用户如何从海量的数据里快速地查找到自己所需的信息显得至关重要。它不仅带来很多值得研究的学术问题,还催生了像百度、谷歌等以搜索引擎为主营业务的科技巨头,而搜索引擎的核心技术之一就是信息检索。文本信息检索研究的是如何从大规模文档集合中找出满足用户需求的文档的过程。其中的关键技术包括:计算查询与文档的匹配、按匹配程度给文档评分并排序。好的信息检索模型能把与查询主题相关的文档排在返
学位