基于深度学习的实体关系抽取算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qingmeizhujiulyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,越来越多的文档以数字资源的形式呈现在互联网上。这些文档内容繁多、结构混乱,使得从这些文档中快速提取有效信息的工作变得十分困难。实体关系抽取作为实现信息结构化的关键技术,可以很好的解决这个问题,并在构建知识图谱、智能问答系统以及自然语言生成方面有着非常重要的作用。基于深度学习的关系抽取在关系抽取中有着比较不错的效果。但是基于深度学习的算法的数据预处理中添加了越来越多由自然语言处理工具得到的额外特征,这些额外特征包含的误差将会在算法中进行累积,从而降低句子特征信息的有效性和利用率。而且这些算法大多使用单一类型神经网络进行特征提取,导致算法提取的特征比较局限。针对这两个问题,本文提出新的数据预处理方式和关系抽取算法来进行改进。具体研究内容如下:(1)为了改进数据预处理中使用过多额外特征造成的大量误差累积问题,本文采用词向量特征、位置向量特征、实体标识特征和句子语义依存树作为数据预处理方式,其中语义依存树是唯一的额外特征。(2)为了分析验证上述数据预处理方式对关系抽取的具体影响,本文提出基于多核卷积神经网络的实体关系抽取算法Re-MCNN和基于双向长短期记忆网络的实体关系抽取算法Re-BLSTM,这两个算法分别从相邻单词特征和整体句子特征角度分析上述数据预处理方式对关系抽取性能的影响。算法实验结果表明,输入特征中添加实体标识特征以及语义依存树对实体关系抽取有着一定程度的提高,证明对过多额外特征引入大量误差问题的改进是有效的。(3)为了改进算法使用单一类型神经网络导致特征提取不足的问题,本文基于Re-MCNN以及Re-BLSTM算法,提出新的实体关系抽取算法Re-CLSTM。其基本思想是使用多核卷积神经网络提取相邻单词特征、双向长短期记忆网络提取整体句子特征。接着使用注意力机制将相邻单词特征与整体句子特征进行融合,最后将融合后的特征输入到分类器得到句子关系。Re-CLSTM算法实验结果表明,通过两种神经网络融合的方式进行关系抽取,可以改进单一网络特征抽取不足问题,进而提高关系抽取的结果。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
在移动互联网带来了爆炸增长的数据的前提下,人工智能进入了飞速发展的阶段。但随着人们对数据隐私的日益关注,世界各国相关法案的出台和完善,如何在保护数据隐私的情况下,进行大数据研究已经逐渐受到学术界和工业界越来越多的关注。在这样的背景下,作为打破数据孤岛、释放人工智能应用潜能的机器学习技术,联邦学习无疑是当前最受工业界和学术界关注的研究方向之一。联邦学习主要解决了以下困境:一是由于互联网企业巨化,各个