论文部分内容阅读
近些年,通过大规模神经网络将自然语言单元表示为连续空间向量用以代替传统的离散符号的方法,极大地提升了各种自然语言处理任务的性能。机器翻译作为自然语言处理领域中最具挑战性的研究任务之一,从最初利用神经网络方法改善统计机器翻译模型,再到构建端到端的神经网络机器翻译模型,机器翻译取得了巨大的进步。面向机器翻译的神经网络方法通常基于句子中的上下文信息来隐式地学习源端句子表示和目标端译文生成。由此可见,上下文信息在机器翻译中扮演着极为重要的角色。神经网络方法能够通过连续空间的向量捕获翻译上下文信息和被预测目标单词之间的语义相似性,但由于神经网络的训练具有较高的时空复杂度,导致其仅仅在词级别上来模拟翻译上下文信息用于生成目标语言翻译。直观上,一个自然语言句子的构成,不仅包括基本的词级别信息,而且包括高阶上下文信息,比如局部上下文、结构化上下文和句子级主题上下文等信息。与基本的单词信息相比,这些具有丰富翻译知识的上下文信息往往会导致大规模的高阶上下文单元,而直接通过神经网络建模又会面临严重的数据稀疏性问题和极大的时空复杂度。为此,本文首先探索如何利用神经网络来表示机器翻译中的高阶上下文单元,并以基于依赖的双语上下文为切入点在统计机器翻译中进行了有效性验证。其次,基于这种高阶上下单元表示方法,依次从局部上下文、结构化上下文和句子级上下文等三个层面对神经网络机器翻译的上下文表示方法展开研究,使得神经网络机器翻译能够捕获更加丰富有效的翻译知识来改善翻译预测。因此,本文主要内容包括以下四个方面:1.在机器翻译中,高阶上下文单元能够编码更多的上下文信息用于翻译预测。但这些高阶上下文单元往往面临着严重的数据稀疏性问题,进而难以捕获上下文中的结构化信息。同时,传统的离散符号表示方法也难以捕获翻译上下文与被预测目标语言单词之间的语义相似性。因此,本文提出了一种基于依赖的神经网络联合模型,既能够通过神经网络来捕获语义相似性,又能够通过卷积架构的语义组合属性极大地缓解由高阶上下文单元所引起的数据稀疏性问题,进而能够有效的捕获翻译上下文中的长距离依赖信息用于翻译预测。通过在统计机器翻译模型上的实验,验证了这种新的方法显著地优于传统的基于离散符号的上下文表示方法,尤其是通过显式地编码源端长距依赖约束,超过了著名的基于词序列的神经网络联合模型。2.在自然语言中存在着大量的多义词,也即一个单词往往可以表示多种不同的含义。在现有的神经网络机器翻译模型中,不论一个单词具有多少种不同的含义,都会被表示为一个单一的实值向量来编码这个单词的所有含义。在学习源端句子表示时,编码器不能充分地捕获源端句子中的多义词信息,进而导致注意力机制所学习到的上下文向量难以生成正确的目标单词翻译。而当源端句子中包含有集外词(未被词汇表所覆盖的单词)时,这个问题会变得更为严重。为此,本文提出了一种基于局部上下文的词汇表示方法来为每一个源端单词动态地学习一个特定句子的局部上下文向量用以强化神经网络机器翻译框架的词嵌入层,进而改善单词(尤其是多义词和集外词)的向量表示和翻译。3.神经网络机器翻译模型通常依靠神经网络顺序地处理源端输入来隐式地编码源语言句子中的句法和语义信息,而未曾显式地考虑翻译上下文中的结构化信息。在统计机器翻译中,结构化翻译知识已经被证明有益于翻译预测。为此,本文提出了两种新的方法(包括源端依赖表示方法和句法导向注意力方法),用以将源端长距离依赖上下文信息引入到现有的神经网络机器翻译模型中,使得翻译模型能够捕获那些在句法上更为相关的源端上下文信息来改善翻译预测。4.神经网络机器翻译模型通常聚焦于词级上下文信息来预测目标语言单词,而未考虑句子级上下文信息。在自然语言中,一个单词往往在不同的主题(或领域)中具有不同的含义。而在神经网络机器翻译模型中,一个单词往往在不同的句子中具有不同的主题,甚至在一个单词在同一个句子中可能具有不止一个主题。这意味着句子级上下文信息中包含了单词的主题信息。因此,本文提出了一种句子级主题上下文表示方法,将句子级上下文信息表示为一种隐含主题向量序列,并通过注意力机制将其引入到现有的神经网络机器翻译模型中用于改善翻译预测。这种方法能够与现有的神经网络机器翻译模型进行一体化训练,进而联合学习句子级主题上下文信息和目标单词的翻译。