论文部分内容阅读
机器翻译是实现“沟通无国界”这一梦想的核心技术,长期以来一直受到学术界和工业界的广泛关注。然而,无论是统计机器翻译,还是发展速度较快的神经机器翻译,都还有一些问题有待解决,包括:如何提高稀缺资源翻译任务上的翻译效果、如何在神经机器翻译中使用统计机器翻译中证明有效的方法、如何有效地利用骨架知识指导翻译、如何有效地使用语言学知识优化译文质量。本文通过引入多层次知识来解决机器翻译中存在的上述问题,多层次知识主要包括中介语知识、泛化与短语知识、骨架知识、语言学知识。本文的研究内容包括以下四个方面:
第一,提出了基于中介语知识的机器翻译方法。在稀缺资源翻译任务上,本文证实神经机器翻译模型无法表现出较好的翻译效果,与统计方法相比性能相差极大。因此,在稀缺资源翻译任务上,本文着重对基于统计的机器翻译方法进行研究。本文提出了词对齐优化的语料级中介语方法和基于解码生成的短语级中介语方法,用于构建外国语至汉语的机器翻译模型。本文使用基于最小错误率训练的方法对语料级和短语级的翻译结果进行融合,进一步提高了翻译质量。通过使用本文提出的方法成功构建了盂加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译模型。
第二,提出了基于泛化与短语知识的机器翻译方法。在统计机器翻译中,在泛化数据上进行模型训练的短语统计机器翻译模型的翻译质量显著地优于基于词的翻译模型,受到这一想法的启发,本文对神经机器翻译中的数据泛化方法和短语生成方法进行了深入的研究。为了缓解子词方法在未登录词和低频词翻译时出现的错译问题,本文提出了泛化数据结合子词方法的技术。在将泛化知识引入到神经机器翻译中,本文提出了一致性检测和解码优化的方法。在将短语知识引入到神经机器翻译中,本文提出了基于数据压缩算法的短语生成方法。神经机器翻译通过使用泛化和短语知识,获得了翻译质量的提升。
第三,提出了基于骨架知识的机器翻译方法,将骨架知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,本文方法生成的骨架短语对提供了译文端的局部翻译框架。通过在短语翻译表中使用翻译骨架的概念,经过分解、替换、生成操作,生成了骨架短语对。该方法显著地缓解了在已有的语料条件下短语对学习不充分的问题,学习到大量的高质量的骨架短语对,获得了翻译质量的提升;在神经机器翻译中,翻译骨架提供了译文端的全局翻译框架,可以将翻译问题转化为目标语言的填空问题。该方法通过额外的骨架编码器对翻译骨架进行建模,通过使用知识门阀和注意力门阀动态地控制解码过程中不同来源的知识对当前解码词汇贡献度的大小。从真正的翻译结果中可以看出,本文提出的基于骨架的神经机器翻译可以使用翻译骨架对翻译过程进行有效地指导,最终获得了翻译质量的提升。通过实验证实,当翻译骨架中真实词汇的数量上升时,翻译性能随之增长。
第四,提出了基于语言学知识的机器翻译方法,将语言学知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,通过对丢词现象进行分析,本文将丢词问题分为想要的丢词和不想要的丢词。继而,对于这两类丢词,本文使用基于最大熵的丢词模型进行解决,在最大熵方法训练丢词模型参数的过程中,通过知识块内嵌了词性、命名实体、浅层语义这三类语言学知识。在丢词问题上,实验结果证实,本文提出的方法显著地提高了译文的翻译质量;在神经机器翻译中,在对源语言词汇进行建模的同时,使用另外一个语言学编码器对语言学知识进行建模。该模型使用知识块对四种语言学知识进行建模,包括词性、命名实体、浅层语义、依存句法树,使用知识门阀和注意力门阀动态地控制从不同编码器传入到解码器的信息的多少。最终的实验结果证明,本文提出的方法有效地提高了机器翻译模型的翻译质量,明显地缓解了机器翻译中存在的丢词问题和译文结构混乱问题。
基于本文提出的方法,我们成功开发了开源统计机器翻译系统NiuTrans和开源神经机器翻译系统LiNMT。NiuTrans在NTCIR、LoReHLT、CWMT等多项国内外机器翻译评测中获得了第一、第二名的成绩,LiNMT在CWMT2017英汉机器翻译任务上获得了第二名的成绩。
第一,提出了基于中介语知识的机器翻译方法。在稀缺资源翻译任务上,本文证实神经机器翻译模型无法表现出较好的翻译效果,与统计方法相比性能相差极大。因此,在稀缺资源翻译任务上,本文着重对基于统计的机器翻译方法进行研究。本文提出了词对齐优化的语料级中介语方法和基于解码生成的短语级中介语方法,用于构建外国语至汉语的机器翻译模型。本文使用基于最小错误率训练的方法对语料级和短语级的翻译结果进行融合,进一步提高了翻译质量。通过使用本文提出的方法成功构建了盂加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译模型。
第二,提出了基于泛化与短语知识的机器翻译方法。在统计机器翻译中,在泛化数据上进行模型训练的短语统计机器翻译模型的翻译质量显著地优于基于词的翻译模型,受到这一想法的启发,本文对神经机器翻译中的数据泛化方法和短语生成方法进行了深入的研究。为了缓解子词方法在未登录词和低频词翻译时出现的错译问题,本文提出了泛化数据结合子词方法的技术。在将泛化知识引入到神经机器翻译中,本文提出了一致性检测和解码优化的方法。在将短语知识引入到神经机器翻译中,本文提出了基于数据压缩算法的短语生成方法。神经机器翻译通过使用泛化和短语知识,获得了翻译质量的提升。
第三,提出了基于骨架知识的机器翻译方法,将骨架知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,本文方法生成的骨架短语对提供了译文端的局部翻译框架。通过在短语翻译表中使用翻译骨架的概念,经过分解、替换、生成操作,生成了骨架短语对。该方法显著地缓解了在已有的语料条件下短语对学习不充分的问题,学习到大量的高质量的骨架短语对,获得了翻译质量的提升;在神经机器翻译中,翻译骨架提供了译文端的全局翻译框架,可以将翻译问题转化为目标语言的填空问题。该方法通过额外的骨架编码器对翻译骨架进行建模,通过使用知识门阀和注意力门阀动态地控制解码过程中不同来源的知识对当前解码词汇贡献度的大小。从真正的翻译结果中可以看出,本文提出的基于骨架的神经机器翻译可以使用翻译骨架对翻译过程进行有效地指导,最终获得了翻译质量的提升。通过实验证实,当翻译骨架中真实词汇的数量上升时,翻译性能随之增长。
第四,提出了基于语言学知识的机器翻译方法,将语言学知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,通过对丢词现象进行分析,本文将丢词问题分为想要的丢词和不想要的丢词。继而,对于这两类丢词,本文使用基于最大熵的丢词模型进行解决,在最大熵方法训练丢词模型参数的过程中,通过知识块内嵌了词性、命名实体、浅层语义这三类语言学知识。在丢词问题上,实验结果证实,本文提出的方法显著地提高了译文的翻译质量;在神经机器翻译中,在对源语言词汇进行建模的同时,使用另外一个语言学编码器对语言学知识进行建模。该模型使用知识块对四种语言学知识进行建模,包括词性、命名实体、浅层语义、依存句法树,使用知识门阀和注意力门阀动态地控制从不同编码器传入到解码器的信息的多少。最终的实验结果证明,本文提出的方法有效地提高了机器翻译模型的翻译质量,明显地缓解了机器翻译中存在的丢词问题和译文结构混乱问题。
基于本文提出的方法,我们成功开发了开源统计机器翻译系统NiuTrans和开源神经机器翻译系统LiNMT。NiuTrans在NTCIR、LoReHLT、CWMT等多项国内外机器翻译评测中获得了第一、第二名的成绩,LiNMT在CWMT2017英汉机器翻译任务上获得了第二名的成绩。