论文部分内容阅读
机器阅读理解是自然语言处理研究方向的一个至关重要的研究领域,已经成为学术界和产业界共同关注的研究热点之一,它的研究目标是教会机器学会做阅读理解题目。现有的模型存在两方面的问题,一方面是大多数模型是使用循环神经网络直接训练基于预训练词向量表示的文本,从而导致最终训练语义向量的表征能力不足而无法很好的表达语义;另一方面对于问题和上下文之间的注意力也没有充分利用,导致模型对于文本信息的语义抽取重点分散,造成模型最终的性能表现相对较差。本文详细的介绍了阅读理解模型的相关内容,对现有模型的不足之处做出了改进,从而构建出本文所提出的两个阅读理解模型,并且得到了更好的结果。本文的主要研究内容可以归纳为以下两方面:(1)针对部分模型使用循环神经网络对预训练词向量直接训练而造成文本高层次语义薄弱的问题。本文提出了新的模型——BT-net,使用Bert预训练语言模型作为模型的词向量表示,在其基础上加入三层Transformer对Bert表征的文本和问题进行多层级表示,对文本和问题之间的注意力焦点进一步细化,期望使模型可以注意到哪些内容是和问题相关的。输出层采用跳跃连接方式,对第一层Transformer的输出和其他两层进行两两组合,然后进行矩阵的合并连接,最后预测答案的起始位置和终止位置。最终BT-net的实验结果EM值72.93%,F1值为75.96%。较基础模型QA-net的EM值提升9.84%和9.16%,证明了使用Bert预训练语言模型作为词向量表示带来巨大的模型增益,对语言的表征能力强于之前的词向量模型。(2)针对模型在文本高层次语义向量中抽取的重点不突出问题。本文基于Bert模型,以及在Bi DAF的双流注意力机制的启发下提出了Bert-net。即模型采用Bert-base作为模型的词向量输入,对得到问题和上下文的融合向量进行掩码操作,得到独立的问题和上下文向量,然后使用改进的多层协同多头注意力机制,以及采用自注意力机制对要抽取的上下文文本的注意力进行进一步的处理,最后预测答案的起始和终止位置。本文为了确定Bert-net中协同多头注意力层的层数N,做了层数确定的对比实验,最终确定在N等于7的时候,模型的性能最好,此时的EM值为73.41,F1值为76.36。较基础模型Bi DAF的EM值和F1值分别提升了13.71%和13.66%;较基础模型Bert,EM值和F1值分别提升了1.9%和1.89%;通过消融实验证明了协同多头注意力层以及自注意力层在不同程度上改进了文本语义信息重点不突出的问题,提升了模型的效果。