基于深度学习的特定领域实体联合抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lovedan_33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展让我们迎来了信息爆炸的时代,网络上每天都会产生各种各样的文本数据,如何从这些大量文本中提取出有用的信息成为亟需解决的问题。实体和关系信息是文本中最基本的信息,目前关于实体和关系信息抽取的研究工作已经有许多,例如在实体抽取上传统NER任务在人名地名机构名上的研究已经比较成熟,但是根据行业的不同,基于行业领域相关的自定义实体抽取工作又是相对较少。除了实体本身所带来的信息,实体之间的语义关系信息往往也是进行分析时所不可缺少的,实体关系的联合抽取才能更好的反应文本所能提供的有效信息。基于特定领域的实体联合抽取工作存在一些自身的难点,一是文本通常采用的词向量编码方式过于简单,在基于特定领域的任务下不能引入足够的行业规则信息;二是在实体联合抽取这种多目标的任务中,不同文本的重要程度理应根据同目标的关系进行区别分析。基于以上两个问题本文首先设计了一种多类别领域词典编码,并提出了多编码融合的嵌入层构造方式,以在编码层引入更多领域规则特性,此外还设计了一个基于多目标依赖的多层注意力网络MTD-RAM NET来提高关系抽取的效率。对于本文研究实体联合抽取任务,本文将分成了三个部分来论述,分别是领域文本分类,实体抽取以及关系抽取。在领域文本分类和实体抽取任务中针对普通编码的领域规则信息缺失问题,通过结合包括词嵌入,词性嵌入,以及通过收集领域词典去构建词典编码,以改善嵌入层编码提高实验最终的分类和抽取准确率。针对关系抽取任务中的多目标问题,本文提出了基于多目标依赖的网络MTD-RAM NET,该模型引入相对位置特征和输入层注意力机制,结合多层循环注意力网络对文本中的不同部分信息进行有区别抓取。最后通过对比实验验证了本文提出的嵌入层构造方法以及关系抽取网络在特定领域实体联合抽取任务中的有效性。
其他文献
采用不同的方法对不同类型的仙人掌和芦荟进行7种成分的测定、分析、比较、研究,结果认为:仙人掌变态茎的表皮中,物质含量丰富,茎肉是低蛋白食材;芦荟叶肉中活性物质含量多,而
目的:探讨复发性急性低频感音神经性听力损失(Recurrent Acute Low-tone Sensorineural Hearing Loss,RALHL)的临床特征。方法:收集重庆医科大学附属第一医院耳鼻咽喉头颈外科2013年8月-2018年8月期间住院治疗的RALHL患者共27例,回顾性分析患者的基本资料、辅助检查以及疗效等。结果:(1)基本资料:27例患者中男性占25.93%(7/27)
随着2011年《浙江省幼儿园等级评定标准》(试行)的颁布,对教师的专业提出了新的要求即幼儿教师应该是一位兼具理智与情感的观察者。教师的观察需发展理智思维:教师的价值判断
空气静压电主轴将转轴与电机转子过盈联接,实现了主轴的零传动,转轴与电机转子间的过盈量是影响主轴性能的重要因素。根据力学理论对空气静压电主轴过盈联接进行了设计和校核