融合句法知识的神经机器翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:my888162
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译通常采用序列-序列的神经网络模型对翻译任务建模,其翻译结果从流畅度、忠实度等方面都远超传统的统计机器翻译方法,使机器翻译技术达到了一个新的高度。通常情况下,神经机器翻译模型利用编码器以序列的形式对源语言句子编码,再利用解码器同样以序列的形式生成目标语言句子。然而语言中句子的构成并不是词语的简单罗列,实际上每句话都是由该语言的语法结构约束的。例如一个英文句子可以由主语、谓语、宾语组成,每个英文单词可以充当其中一个或多个角色,它们需要在语法的约束下才能组合成一个正确的句子。语法结构是语言中非常重要的组成部分。而神经机器翻译模型在翻译的过程中往往忽视了语法结构,导致翻译结果中仍存在违背语法约束的错误译文。在自然语言处理领域,语法通常由句法结构表示。近年来,基于句法的神经机器翻译成为神经机器翻译研究中的一个热点话题。本文主要针对基于句法的神经机器翻译中的五种问题提出相应的研究方法。第一,针对基于句法的神经翻译模型中源语言树结构编码复杂的问题,提出一种简单有效的基于依存句法结构遍历的编码方法。源语言的句法结构可以帮助神经翻译模型准确地理解源语言中词语之间的结构关系,比如主谓关系,修饰关系等,从而保证译文最大限度的契合源语言。现有的诸多方法利用复杂的神经网络结构对源语言的句法结构进行编码。虽然实现了将句法信息引入到神经翻译模型中,但大大增加了模型的复杂度。针对这一问题,本文提出了基于依存句法结构遍历的编码方法。该方法立足于结构简单的源语言依存句法结构,通过先序、后序的遍历方式构建出两种不同于源语言句子的序列,同时它们最大限度地保留了句法结构知识。本文通过在编码器中额外地编码这两种遍历序列,将源语言的依存句法结构引入到神经翻译模型中。实验结果表明这种方法可以有效地让神经机器翻译利用源语言句法知识,并提高了翻译性能。第二,目前新兴的基于完全自注意力机制的Transformer模型已经全面地超越了以往的神经机器翻译模型,然而句法结构能否对Transformer有帮助仍是一个研究空白。本文在Transformer的基础上提出一种基于源语言依存结构的有监督编码器。Transformer编码器的特点是利用多层的多路自注意力网络从不同角度隐式地对源语言建模。针对这一点,本文提出利用依存句法结构指导自注意力网络显示地对句法结构建模。首先,本文在依存句法结构的基础上提出两种结构依存矩阵,这两个矩阵分别包含了子节点到父节点的依赖关系和父节点到子节点的依赖关系。然后,在Transformer模型的训练过程中,利用这两个矩阵去指导自注意力网络显示地对依存结构建模,从而达到将依存结构引入Transformer的目的。该方法简单易行,既不增加Transformer网络的复杂度,又不打破Transformer高度并行化的优势。在翻译过程中,编码器能够自动的构建源语言依存结构,并将其用来帮助翻译的产生。实验结果表明该方法可以有效地利用源语言依存句法结构提高Transformer的翻译性能。第三,针对在神经机器翻译模型中利用目标语言句法知识这一问题,本文提出了序列-依存的翻译模型。目标语言的依存句法知识可以直接有效地约束译文,使其满足语法结构。现有方法大多集中于如何在翻译过程中生成译文对应的句法结构,却忽视了对如何有效地利用已生成的句法结构进一步提高译文的质量。本文立足于目标语言的依存句法结构,提出序列-依存的翻译模型。该模型能够在翻译的过程中同时为译文构建依存句法结构,并从已生成的局部句法结构中抽取句法级的上下文知识,进一步帮助后续译文和句法结构的生成。实验结果表明本文提出的序列-依存翻译模型能够很好地利用目标语言句法知识提高模型的翻译能力,同时也能为译文建立合理的句法结构。第四,针对现有工作未能在神经机器翻译模型中同时利用源语言和目标语言句法知识这一问题,本文提出依存-依存的翻译模型。句法是比句子复杂很多的结构化知识,在基于序列的神经翻译模型中利用单一方向的句法知识已经很有挑战,那么要同时利用两个方向的句法知识更是难上加难,因此现有工作未能同时考虑二者。针对这一问题,本文提出依存-依存的神经翻译模型,该模型实现了同时利用源语言和目标语言的依存句法结构。本文将依存-依存的模型框架分别应用在基于循环神经网络的翻译模型和Transformer中并提高了二者的翻译性能。第五,本文对基于句法的翻译模型做了比较全面的分析,包括以下三个方面:(1)分析了训练数据规模对翻译模型的影响;(2)分析了句法精度对翻译模型的影响;(3)基于句法的翻译模型在相似语种和不相似语种下的翻译效果。
其他文献
高浓度氨氮废水主要来自于焦化废水、煤气废水、味精废水、化肥废水、垃圾渗滤液以及养殖废水厌氧消化液等。通过吹脱、沉淀、粉煤灰吸附一套组合工艺处理高浓度氨氮废水,处理
采用曝气吹脱提高碱度法促进鸟粪石在套筒式反应器中结晶以去除实际污泥水中的氮和磷,分析了其效果及存在的问题。连续188 d的运行结果表明,在气水比为30∶1条件下套筒式反应
大跨度连音是圆号演奏技术的重点和难点,作为影响圆号演奏质量的四个基本因素,口型、气息、意识及运指动作都会影响到大跨度连音的演奏。本文通过对圆号大跨度连音的几个影响因素及其之间相互关系的分析,提出了大跨度连音的基本练习方法,以期帮助演奏者更好地掌握大跨度连音的演奏技术,提升演奏质量。
以MOSA工艺厌氧反应器为研究对象,以温度为单一变量,构建25℃、30℃和35℃三套厌氧反应系统,通过定期监测反应器进出泥的相关指标,探究不同温度条件下,污泥停留时间为5天的厌
目的:通过观察肾复康Ⅵ方干预局灶节段性肾小球硬化型阿霉素肾病综合征大鼠的24小时尿蛋白定量、血生化、肾组织病理学的改变及肾组织中转化生长因子-β1(Transforming Growth
利用鸟粪石法实现列车集便器污水中高浓度磷元素的回收。试验考察了磷镁摩尔比、初始pH、反应时间对磷元素回收率影响。结果表明:在磷镁摩尔比为1.5,初始pH=9.5,反应时间为7m
镁源已经成为尿液废水鸟粪石沉淀法的主要成本之一。探索以海水和苦卤水作为廉价镁源的可行性。在优化pH值、n(Mg)∶n(P)、搅拌转速、反应时间和沉降时间等条件后,海水和苦卤
针对氮磷资源在回收脱水污泥中流失的问题,采用碱法溶胞污泥释放其中的正磷酸盐和氨氮,再加入微波辅助工艺,将释放到上清液的氮磷以鸟粪石的形式回收.分析单独碱解pH、微波升
由于某粮食发酵废水中NH4+、PO43-、Mg2+的物质的量比约为60∶3∶2,水质偏中性,水温适宜形成鸟粪石结晶沉淀(MgNH4PO4·6H2O),在厂区管道内积累了大量鸟粪石及其他类型的沉淀,
针对鸟粪石结晶流化床结构设计的不确定性及复杂性,采用数值模拟的方法模拟多粒径体系下不同构型流化床的湍流强度、分级特性和微晶截留效率。模拟结果表明,一段式流化床对鸟