论文部分内容阅读
指代消解是自然语言处理领域的一项关键任务,准确无歧义的指代消解能促进对篇章语义的整体理解,对于信息抽取、自动摘要、问答系统以及机器翻译等自然语言应用有着极为重要的基础支撑作用。近年来,随着深度学习的兴起和发展,越来越多的学者和研究人员开始使用深度学习进行指代消解。深度学习模型由于其强大的拟合能力,相对于传统机器学习模型有着巨大优势。但现阶段用于指代消解的深度学习模型大多只关注文本的线性表征,而大量的研究表明结构信息对指代消解任务来说至关重要。因此,本文从结构信息的角度对中英文实体指代消解展开了以下研究:(1)先进神经网络模型的构建。本文对目前在实体指代消解任务上表现最好的神经网络进行了重新构建,对其中的耗时操作进行了改进。在使用相同设置的情况下,改进后的模型相比于原模型在训练时间与资源利用率上更具优势。在该模型的基础上,提出了以下两种结构嵌入方式。(2)提出基于压缩成分句法树的结构嵌入方式。针对原始成分句法树结点众多、结构复杂,会存在大量与实体指代消解任务无关的冗余信息的问题,提出了一种针对成分句法树的压缩算法。该方法大大减少了原始句法树中冗余结点的数量,精简了树的结构。以深度与左右兄弟数特征分别从纵向与横向表征结点的结构信息,在CoNLL 2012指代消解评测语料上验证了该结构嵌入的有效性。(3)提出基于结点表示法的结构嵌入方式。该方法使用结点序列对结构进行建模,并通过“特征补充”与“结点更新”机制完善序列表征。避免了现有模型由于自底向上递归编码成分句法树而导致的无法批量计算、效率低下的问题。另外,本文还借助结点枚举来替代原有的短语抽取策略。CoNLL 2012评测语料上的多组实验均验证了上述方法或策略的有效性。