论文部分内容阅读
随着信息技术的飞速发展与广泛应用,Internet中产生了巨量的文本信息。如何从这些文本信息中提取出有用的信息是目前国内外研究人员重点关注的课题之一。关系提取是信息提取中的一个重要子任务,主要用于预测给定句子中包含的两个标记词之间的语义关系。目前,很多关系提取系统利用现有的自然语言处理工具来生成特征,但是这些生成的特征存在一定的问题,而这些问题可能导致关系检测和关系分类的错误。为了解决这些问题,近年来,研究人员开始将深度学习技术应用到关系提取任务中。深度学习技术中的卷积神经网络可以很好的解决利用现有自然语言处理工具生成特征带来的问题。但是,现有的卷积神经网络模型的仍存在正确率不高的问题。因此,本文基于词汇空间特征等对现有卷积神经网络做了进一步研究和改进,以期可以获得更好的关系提取性能。本文主要工作如下:(1)预处理。首先,去除数据中的非文本部分和停用词,并对单词进行词词形还原。接着,通过对长句子进行截断和重复插值,将句子统一为固定长度。然后,使用word2vec工具训练生成研究所需的词汇嵌入模型。最后,为了突出标记名词对的语义特征,本文提出了使用全1占位符来代替标记名词的词汇嵌入特征向量的方法。(2)卷积神经网络模型设计。词汇嵌入模型生成的特征向量只考虑了单词的语义信息,忽略了句子结构对关系提取的影响。为了提取句子级特征,我们需要考虑句子中每个词之间存在的关系。本文根据单词的词汇特征向量之间的空间关系提出了将词汇空间特征向量作为卷积神经网络模型的一个输入通道来提取句子级特征的方法。(3)卷积神经网络模型优化。模型优化分为两部分,一方面是通过加入交叉熵权重来解决数据不平衡带来的问题;另一方面是在训练过程中根据训练情况调整学习率来解决过拟合问题。实验结果显示,本文提出的卷积神经网络模型在F1值上达到了 83.2%,证明了该模型的有效性。