基于注意力机制的阅读理解模型研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yztny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解是自然语言处理研究方向的一个至关重要的研究领域,已经成为学术界和产业界共同关注的研究热点之一,它的研究目标是教会机器学会做阅读理解题目。现有的模型存在两方面的问题,一方面是大多数模型是使用循环神经网络直接训练基于预训练词向量表示的文本,从而导致最终训练语义向量的表征能力不足而无法很好的表达语义;另一方面对于问题和上下文之间的注意力也没有充分利用,导致模型对于文本信息的语义抽取重点分散,造成模型最终的性能表现相对较差。本文详细的介绍了阅读理解模型的相关内容,对现有模型的不足之处做出了改进,从而构建出本文所提出的两个阅读理解模型,并且得到了更好的结果。本文的主要研究内容可以归纳为以下两方面:(1)针对部分模型使用循环神经网络对预训练词向量直接训练而造成文本高层次语义薄弱的问题。本文提出了新的模型——BT-net,使用Bert预训练语言模型作为模型的词向量表示,在其基础上加入三层Transformer对Bert表征的文本和问题进行多层级表示,对文本和问题之间的注意力焦点进一步细化,期望使模型可以注意到哪些内容是和问题相关的。输出层采用跳跃连接方式,对第一层Transformer的输出和其他两层进行两两组合,然后进行矩阵的合并连接,最后预测答案的起始位置和终止位置。最终BT-net的实验结果EM值72.93%,F1值为75.96%。较基础模型QA-net的EM值提升9.84%和9.16%,证明了使用Bert预训练语言模型作为词向量表示带来巨大的模型增益,对语言的表征能力强于之前的词向量模型。(2)针对模型在文本高层次语义向量中抽取的重点不突出问题。本文基于Bert模型,以及在Bi DAF的双流注意力机制的启发下提出了Bert-net。即模型采用Bert-base作为模型的词向量输入,对得到问题和上下文的融合向量进行掩码操作,得到独立的问题和上下文向量,然后使用改进的多层协同多头注意力机制,以及采用自注意力机制对要抽取的上下文文本的注意力进行进一步的处理,最后预测答案的起始和终止位置。本文为了确定Bert-net中协同多头注意力层的层数N,做了层数确定的对比实验,最终确定在N等于7的时候,模型的性能最好,此时的EM值为73.41,F1值为76.36。较基础模型Bi DAF的EM值和F1值分别提升了13.71%和13.66%;较基础模型Bert,EM值和F1值分别提升了1.9%和1.89%;通过消融实验证明了协同多头注意力层以及自注意力层在不同程度上改进了文本语义信息重点不突出的问题,提升了模型的效果。
其他文献
摘要:作为一种大规模、开放性的在线教育模式,慕课在现代教育中的应用备受青睐,在高职英语教学中也不例外。慕课教育在高职英语的教学与推广中发挥着十分重要的作用,在提升高职英语的资源共享水平、教材水平、教学质量等方面有着至关重要的作用。本文对慕课的由来与兴起进行介绍,并阐述其在高职英语教学中的优势,就如何提升高职英语教学的质量进行分析以期为高职英语教学改革提供参考。  关键词:慕课;高职英语教学;教学质
摘 要:如今,网络文学异军突起,网络游戏风靡一时,网络教学更是成为新兴教学方式。网络语言辐射网络经济、网络政治以及现实中人们的生活。因此,网络语言亟待规范化。  关键词:交流工具;网络语言;规范化    网络不分国界,网络语言也在各自的土壤上开花结果,不同的网络语言有不同的文化传承,相应的语言规则也不同。在中国,网络语言有着自己斑斓的色彩,是适应时代的产物。中国网络语言在内部和外部都进行着繁复矛盾
摘要:第二课堂作为大学生创新创业能力培养和提升的主要方式,是高校创新创业教育的主要模式之一。本文主要介绍了大学生创新创业能力培养的主要方式,阐述了第二课堂对大学生创新创业能力培养的积极作用以及高校如何实施第二课堂。  关键词:第二课堂;创新创业能力;教育模式  一、大学生创新创业能力培养的基本模式和路径  1.基本模式  (1)专业教育模式  专业教育模式是将专业教育和创新创业教育结合在一起,将创