论文部分内容阅读
自然语言中否定是一种广泛存在且复杂的语言现象,其往往会反转文本表述中命题的真值、观点的立场、情感和态度的极性。对否定信息进行识别,将其与事实信息区分处理,将极大提高从文本中所获信息的可靠性及价值。目前否定信息识别已经成为自然语言处理中的一个研究热点。其不仅对信息检索、情感分析、文本挖掘、信息抽取等领域具有重要意义,也对文本的深层语义理解具有促进作用。 对否定信息识别的现有研究大多数是面向英文的并已取得了初步成果,而面向汉语的相关工作还比较少。在相关研究中,通常采用机器学习方法将否定信息识别转化为序列标注问题来处理。这类方法依赖于繁重的特征工程,在汉语否定信息识别中获得的性能也不高。近年来,深度学习技术在自然语言处理领域成功的应用越来越多,在许多序列任务中都获得了不错的性能。因此,本文主要研究基于深度学习的汉语否定信息识别方法,主要内容如下: 首先,对面向英文及汉语的否定信息识别方法进行了全面研究。分析并归类了解决否定信息识别各个子任务的方法,总结了这些方法的优势与不足,提出利用深度学习相关技术来解决汉语的否定信息识别问题的新思路。 然后,在对深度学习中用于解决序列问题的相关技术特点进行分析后,提出了基于双向长短期记忆神经网络的汉语否定触发词检测模型。分别对基于汉字和词的两种句子序列进行标注。同时,利用词嵌入技术来捕捉字或词的语义信息,并将预训练得到的字、词向量作为模型的输入特征。实验表明,该模型的效果比传统基于条件随机场的序列标注方法更好。 最后,针对汉语否定覆盖域界定任务特征空间大、特征设计获取比较复杂的情况,仍使用基于长短期记忆神经网络的方法来界定否定覆盖域。根据任务特点,利用词嵌入技术引入否定触发词相关的额外信息来改进汉语否定覆盖域界定模型。实验结果表明,该模型比起传统的单分类器方法仍是有优势的,融合否定触发词信息的改进方法也提升了模型的性能。 本文尝试了利用深度学习技术来解决汉语的否定信息识别问题,该方法无需大量人工特征,减少了对领域知识的依赖,对任务是有效的且仍有较大的改进空间。