论文部分内容阅读
机器翻译领域适应性特指翻译系统或模型对不同领域知识和问题的学习和处理能力,体现为翻译系统或模型的健壮性、稳定性和可移植性。目前,利用大规模的平行资源搭建的机器翻译系统,在面向特定领域翻译任务时,往往难以获得令人满意的翻译结果。一方面,翻译系统的平行训练语料中混杂着不同领域的翻译知识和语言现象,这为特定领域文本的翻译引入了许多的噪声。另一方面,当文本的领域发生变化时,利用现有平行语料训练的翻译系统无法自动的适应领域的变化。针对上述问题,本文集中研究面向统计机器翻译的领域适应性优化方法,具体包括以下三个方面:(1)基于主题信息的领域平行句对选择与优化提出利用平行句对蕴含的主题信息从大规模领域混杂的平行语料库中选择与领域相关的句对子集,用以训练特定领域机器翻译系统。针对平行句对长度较短,难以有效分析其主题的问题。提出构建基于短语对的主题模型,进而推理平行句对和目标领域开发集的主题表示。(2)基于语义相似度的领域翻译模型优化方法针对利用现有平行资源训练的翻译系统,无法根据文本的领域变化进行自适应翻译的问题,提出从语义角度评价短语对的领域互译度,借此优化通用翻译模型。该方法构建特定领域词向量的双语映射关系,以获取短语对中单词在特定领域的语义k近邻词。借助该语义k近邻词,估计短语对的领域互译度,并作为新特征融入翻译系统解码器,以提升翻译模型的领域适应能力。(3)融合句子和文档信息的翻译模型优化方法针对测试文本领域未知的情况,提出一种融合句子和文档信息的翻译模型动态适应性优化方法。对于任意短语对,该方法将其所在源语言句子和文档作为上下文信息。并借助神经网络模型,学习短语对和其上下文的语义表示,最终输入多层感知机计算获取短语对的语义匹配得分。