论文部分内容阅读
随着循环神经网络的出现,自然语言处理的任务命名实体识别、自动问答、机器翻译、文本蕴含识别等都取得了不错的效果。文本蕴含识别和阅读理解属于自然语言理解范畴,阅读理解作为自然语言处理任务中最难的一个任务之一,可以应用在自动问答和智能搜索上。随着阅读理解语料SQuAD和TriviaQA web的出现,使得阅读理解在神经网络中的研究成为了可能。LSTM作为文本提取特征的首选模型,推动了自然语言任务的发展。随着注意力机制的出现,LSTM结合注意力机制可以进一步分析长文本之间的关系,注意力机制也是自然语言任务中很重要的方法。针对文本蕴含识别任务,重点关注的是每个文本中的子事件是否匹配。本文对逐词匹配注意力模型和mLSTM模型进行研究,指出两种模型存在的不足。对当前最优的mLSTM模型进行改进提出一种基于GRU的相邻词信息和逐词匹配模型mGRU。mGRU的主要思想是一个文本或句子设为前提,另一个文本或句子设为假设,先对前提编码,再对假设编码,在对假设编码的同时引入前提的所有单词的注意力,受n-gram思想的启发用假设的相邻词隐藏状态信息和与前提逐词匹配,在斯坦福文本蕴含识别SNLI语料上取得了很好的效果,是以循环网络做为特征提取器的目前较好的水平。针对单段落抽取式阅读理解任务,先从文本蕴含识别做基础研究。考虑到文本蕴涵识别属于自然语言理解任务的基础任务,文本与文本关系识别的领域可类比的把mGRU模型用在单段落的抽取式阅读理解的编码阶段,把问题作为前提,段落作为假设,并对mGRU模型进行一定的改进优化。改进的地方有两点,一个是结合指针网络的边界模型,边界模型作为答案的预测层,另一个是对逐词匹配模型的输出进行双头的自注意力匹配。改进的模型在单段落的抽取式阅读理解上即在SQuAD语料上取得了较好的效果。针对多段落的抽取式阅读理解任务,由于SQuAD数据集都是来自维基百科文章,范围很小,属于短文本类型答案很短的阅读理解,真正用在阅读理解任务上可信度不高,用在更复杂的数据集上效果未知,所以对更复杂的阅读理解任务进行研究,用单段落最优的模型用在复杂的多段落数据集TriviaQA web上,针对复杂数据集提出了段落选择方法和噪音处理方法,结合这个两个方法,模型在多段落抽取式阅读理解任务上取得了不错的效果。