论文部分内容阅读
随着互联网时代的高速发展,越来越多的问题开始出现,如何迅速、准确处理在网络上存在的海量非结构化的数据,吸引了越来越多的研究人员的关注。处理文本信息是自然语言处理的一项重要功能,而在处理文本信息中,信息抽取是极为重要的一项任务,而本文使用的关系抽取是信息抽取的一项子任务,目前存在有全监督、半监督、弱监督以及无监督关系抽取等大致几种分类,这几种分类方法的依据则是训练数据的来源。但在海量的非结构数据的问题上,都存在着准确率低或成本太高的问题。在2009年学者Mintz提出一种是在大数据环境下进行关系抽取任务的方法——远监督关系抽取,这项工作是通过将知识库中的关系实例和文本集中的句子进行对齐,在进行知识对齐的过程中是基于这样一条假设来对齐的,如果在文本集中的某条语句中,包含着知识库中的某条实体对,则认为这条句子表达了这个实体对在知识库中表达的关系标签,然后运用对齐后的数据在分类器中进行大规模训练。本文在修改训练流程的同时,对传统的训练方式进行了两点改进。一是池化过程中采用了词级别的注意力机制,解决句子中的异构语句问题;二是在数据进行初步训练后,对不完备的标签采用了基于SVD的标签补全的方法。这两点改进具有较高的容纳性,可以加载在其他的神经网络的关系抽取模型中。在本文模型中,使用卷积神经网络来嵌入句子的语义,本文认为在同一个句子中,不同的单词对句子整体结构以及句意产生的影响不同,比如在句子“Donald Trump is the president of U.S.”中,明显可以看出“president”与“of”相比,对句子影响更大,理应占有更高的权重,本文称之为异构语句。于是本文提出基于单词的注意力机制的池化处理self-attention-pooling,在对经过卷积处理后的句子卷积特征添加词级别间的注意力机制,将对句子影响较大的单词赋予更高的权重,通过使用这种方法来解决异构语句的问题。远监督关系抽取已经被广泛应用在从文本中找到新的关系事实,但仍然不可避免地有着错误标签的问题,这些噪声数据严重影响关系抽取的性能。为了解决这个问题,本文运用了矩阵降噪中的奇异值分解降噪的方法。在包特征向量中,本文认为表达特征值类似的包往往具有类似的包标签,也就是两个包在包特征矩阵中的表达是呈现线性相关的,于是在将数据经过初始训练后,根据得到的包特征与远监督得到的包标签进行匹配与矩阵补全操作,通过对矩阵低秩化处理来降低存在的噪声。在矩阵处理的过程中,奇异值的个数直接等价于矩阵的秩。矩阵经奇异值分解操作得到的奇异值序列从大到小排列,呈快速衰减的趋势。本文使用奇异值分解方法,得到矩阵的n个奇异值,通过寻求在Frobenius范数上的最优解,求出最能描述出矩阵特征的k个奇异值,由于奇异值的快速衰减性,本文认为数值较小的奇异值在矩阵中表现为噪声,使用最大的k个奇异值对矩阵进行降噪,使得卷积层的矩阵经过处理后,对结果有了更好的逼近效果。实验证明本文模型可以更充分利用信息含量高的句子,有效地减少了错误标记实例的影响。与基准方法相比,本文提出的模型在关系抽取中最终的准确率和召回率取得了全面的提高。