论文部分内容阅读
近年来,大规模知识库在自然语言处理、网页搜索和自动问答等方面得到广泛应用。这些知识库的核心是大量形如“(Mark Zuckerberg,founder of,Facebook)”的事实关系元组。诚然,目前这些知识库还远不够准确描述真实世界中的海量知识。为进一步丰富现有知识库,新近的研究希望通过机器学习的自动化方法来提升知识库的体量,尤其是增加事实关系的数量。这个过程称作关系抽取,即从无格式文本中识别并生成实体之间的语义关系。关系分类是关系抽取的一种实现方法,通过对实体对的关系进行分类来获取语义关系。本文首先介绍了关系抽取技术和基于深度学习的关系分类技术在国内外的研究现状,发现基于卷积神经网络(CNN)的方法在本身仅包含一个标准卷积层、池化层和softmax层的情况下,就能取得和其他各类方法相当的效果。但是传统CNN方法忽略了实体间的词语与其语义关系高度相关这一特性,并且仅使用单层卷积抽取句子特征,没有获取高层特征。针对这两个问题,本文提出一个简单模型:将句子依据实体位置划分为3段处理并使用层次CNN融合句子的底层和高层特征。通过实验证明了该方法相比传统方法有所改进,并发现现有CNN模型两点不足:处理大间距实体的样本时,CNN难以提取有效特征甚至提取出从句中的错误特征;现有方法在输入同一样本的正向实例和反向实例时,会出现结果不一致的情况。针对CNN模型的不足,本文设计了基于选择性注意力的卷积神经网络句子编码器和结合双向实例的关系分类模型(SA-CNN+BDI)。利用两实体间最短依存路径得到关键词语,通过卷积后添加选择性注意层来增强关键词语的隐含特征;利用两类决策融合策略来结合正向实例和反向实例关系分类结果,避免正反实例关系冲突,最终得到更准确的目标关系。实验证明了该模型两部分各自的有效性,并且该模型也取得了领域最优的效果。最后在人物情报分析的应用背景中,利用人工构造的真实数据集展示了本文提出模型在关系抽取和知识图谱构建领域中的应用。本文实现的原型系统能够自动抽取中文文本中人物关系并通过可视化界面进行展示。