论文部分内容阅读
近年来,随着深度学习等算法技术的突破和数据信息环境的不断完善,人工智能开始进入实用阶段,能够更有效地解决许多复杂问题,成为了各个国家重点关注和发展的领域。自然语言处理作为人工智能领域的一个分支,其研究方法也从传统的基于统计的方法演化为各种基于深度学习的方法,在词向量表示、机器翻译、语音识别等任务上都取得了重要成果。
由于自然语言本身为序列结构,所以在用深度学习方法对自然语言进行建模时,通常釆用的是可以将输入序列映射为输出序列的循环神经网络。考虑到自然语言内部包含较为复杂的句法结构,以及循环神经网络在长句处理方面性能会下降等因素,学者们在模型中引入了注意力机制,在一定程度上改善了上述问题。
现有的注意力机制仍然存在一些不足,比如无法显式获取句子中巳知的句法结构信息,输出的概率可解释性不强等。针对以上问题,本文将对循环神经网络模型中的注意力机制进行改进,首先通过句法分析等手段将自然语言序列中的先验信息构建为图模型,然后在稀疏映射中引入图结构正则化项,构建出一种用于替换传统注意力机制中softmax函数的新函数netmax。netmax函数在具有softmax函数良好性质的同时,还包含了以图结构形式存储的先验信息,这可以为深度学习模型提供更加丰富的输入信息来进行训练,进而提升模型的性能,并且使得关联程度较大的输入样本对应的输入值更为接近,让注意力机制的输出更加容易被理解。除此之外,本文釆用的改进方法还可以使注意力机制的输出变得稀疏,这进一步提高了模型的可解释性。
为了对提出的方法进行有效的验证,本文还包含两个实验,分别是基于逻辑回归模型的文本分类实验和基于深度学习模型的神经机器翻译实验。实验首先证明了引入先验信息这一思想在文本分类任务中的有效性,然后证实了改进的注意力机制的确可以在机器翻译任务中有效提升模型的性能。
本文的创新之处主要在于通过将深度学习模型与统计学知识相结合的手段,提出了可以被广泛使用在注意力机制中的权重计算方法,为自然语言处理任务中的深度学习模型打开了一个引入先验信息的渠道。但由于引入的先验信息是该方法的关键,所以对先验信息的选择也成为模型能否达到预期效果的重要因素,这也将成为后续有待进一步研究的问题。
由于自然语言本身为序列结构,所以在用深度学习方法对自然语言进行建模时,通常釆用的是可以将输入序列映射为输出序列的循环神经网络。考虑到自然语言内部包含较为复杂的句法结构,以及循环神经网络在长句处理方面性能会下降等因素,学者们在模型中引入了注意力机制,在一定程度上改善了上述问题。
现有的注意力机制仍然存在一些不足,比如无法显式获取句子中巳知的句法结构信息,输出的概率可解释性不强等。针对以上问题,本文将对循环神经网络模型中的注意力机制进行改进,首先通过句法分析等手段将自然语言序列中的先验信息构建为图模型,然后在稀疏映射中引入图结构正则化项,构建出一种用于替换传统注意力机制中softmax函数的新函数netmax。netmax函数在具有softmax函数良好性质的同时,还包含了以图结构形式存储的先验信息,这可以为深度学习模型提供更加丰富的输入信息来进行训练,进而提升模型的性能,并且使得关联程度较大的输入样本对应的输入值更为接近,让注意力机制的输出更加容易被理解。除此之外,本文釆用的改进方法还可以使注意力机制的输出变得稀疏,这进一步提高了模型的可解释性。
为了对提出的方法进行有效的验证,本文还包含两个实验,分别是基于逻辑回归模型的文本分类实验和基于深度学习模型的神经机器翻译实验。实验首先证明了引入先验信息这一思想在文本分类任务中的有效性,然后证实了改进的注意力机制的确可以在机器翻译任务中有效提升模型的性能。
本文的创新之处主要在于通过将深度学习模型与统计学知识相结合的手段,提出了可以被广泛使用在注意力机制中的权重计算方法,为自然语言处理任务中的深度学习模型打开了一个引入先验信息的渠道。但由于引入的先验信息是该方法的关键,所以对先验信息的选择也成为模型能否达到预期效果的重要因素,这也将成为后续有待进一步研究的问题。